
摘要
什么使得视频任务在本质上区别于仅从单张图像中获取信息的任务?在近期自监督图像-语言模型取得进展的基础上,我们重新审视了这一问题,聚焦于视频与语言任务的结合场景。为此,我们提出了非时序探针(Atemporal Probe, ATP),一种用于视频-语言分析的新模型,该模型为受限于图像级理解的多模态模型设定了更严格的基线准确率上限。通过将该模型应用于标准的判别性视频与语言任务(如视频问答和文本到视频检索),我们系统地分析了当前视频-语言基准测试的局限性与潜力。研究发现,即使在旨在评估深层视频级理解能力的场景中,以及与近期大规模视频-语言模型进行对比时,对事件时序性的理解往往并非实现优异甚至顶尖性能的必要条件。此外,我们展示了ATP在改进视频-语言数据集与模型设计方面的潜力。我们提出一种技术,利用ATP更有效地分离出包含更高比例时序挑战性数据的数据子集,从而提升对因果关系与时序理解能力的评估有效性。进一步地,我们证明了将ATP有效整合进完整的视频级时序建模框架中,不仅能够提升模型效率,还能进一步推动准确率达到当前最优水平。综上所述,ATP为理解视频-语言任务中“视频特有”信息提供了新的分析工具,揭示了现有基准测试在衡量时序理解能力方面的不足,并为未来更精准、更具挑战性的视频-语言研究提供了方法论支持。
代码仓库
stanfordvl/atp-video-language
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-question-answering-on-how2qa | ATP | Accuracy: 65.1 |
| video-question-answering-on-msr-vtt-mc | ATP (1<-16) | Accuracy: 93.2 |
| video-question-answering-on-next-qa | ATP | Accuracy: 54.3 |
| video-question-answering-on-situated | Temp[ATP] | Average Accuracy: 48.37 |