
摘要
现有的视频-语言研究主要集中在学习短片段视频上,由于建模长视频的计算成本过高,长期时间依赖性很少被探索。为了解决这一问题,一个可行的方案是学习视频片段与字幕之间的对应关系,然而这不可避免地会遇到多粒度噪声对应(MNC)问题。具体而言,MNC 指的是视频片段与段落之间的粗粒度错位以及帧与单词之间的细粒度错位,这些错位阻碍了时间学习和视频理解。在本文中,我们提出了一种统一的最优传输框架来解决 MNC 问题的方法——噪声鲁棒时间最优传输(Norton)。简而言之,Norton 利用视频-段落对比损失和片段-字幕对比损失来基于最优传输捕捉长期依赖性。为了应对视频-段落对比中的粗粒度错位,Norton 通过可对齐提示桶过滤掉无关的片段和字幕,并根据传输距离重新对齐不同步的片段-字幕对。为了处理细粒度错位,Norton 引入了一个软最大值算子来识别关键单词和关键帧。此外,Norton 还利用了片段-字幕对比中的潜在错误负样本,通过最优传输分配修正对齐目标以确保精确的时间建模。大量的实验验证了我们的方法在视频检索、视频问答和动作分割任务中的有效性。代码可在 https://lin-yijie.github.io/projects/Norton 获取。
代码仓库
XLearning-SCU/2024-ICLR-Norton
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-segmentation-on-coin | Norton | Frame accuracy: 69.8 |
| long-video-retrieval-background-removed-on | Norton | Cap. Avg. R@1: 75.5 Cap. Avg. R@10: 97.7 Cap. Avg. R@5: 95.0 DTW R@1: 88.7 DTW R@10: 99.5 DTW R@5: 98.8 OTAM R@1: 88.9 OTAM R@10: 99.5 OTAM R@5: 98.4 |
| video-question-answering-on-msrvtt-mc | Norton | Accuracy: 92.7 |
| zero-shot-video-retrieval-on-msr-vtt | Norton | text-to-video R@1: 10.7 text-to-video R@5: 24.1 |
| zero-shot-video-retrieval-on-youcook2 | Norton | text-to-video R@1: 24.2 text-to-video R@10: 64.1 text-to-video R@5: 51.9 |