
摘要
认知科学研究表明,人类在观看视频时会根据主要对象的状态变化来感知事件。状态变化触发新的事件,并且在大量冗余信息中是最有用的信息之一。然而,以往的研究主要集中在对视频片段的整体理解上,而没有评估其中的细粒度状态变化。本文介绍了一个名为Kinetic-GEB+的新数据集。该数据集包含超过17万个边界,这些边界与描述12000个视频中通用事件状态变化的字幕相关联。基于这一新数据集,我们提出了三项任务,旨在通过状态变化促进对视频更细粒度、更稳健和更接近人类的理解能力的发展。我们在数据集中评估了许多代表性基线方法,并设计了一种新的TPD(基于时间的成对差异)建模方法来表示视觉差异,从而实现了显著的性能提升。此外,结果表明,当前方法在利用不同粒度、表示视觉差异以及准确定位状态变化方面仍面临巨大挑战。进一步分析显示,我们的数据集可以推动开发更强大的方法来理解状态变化,从而提高视频层面的理解能力。该数据集包括视频和边界信息,可在https://yuxuan-w.github.io/GEB-plus/ 获取。
代码仓库
yuxuan-w/geb-plus
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| boundary-captioning-on-kinetic-geb | ActBERT-revised | CIDEr: 74.71 ROUGE-L: 28.15 SPICE: 19.52 |
| boundary-grounding-on-kinetic-geb | FROZEN-revised | F1@0.1s: 4.28 F1@0.2s: 8.54 F1@0.5s: 18.33 F1@1.0s: 31.04 F1@1.5s: 40.48 F1@2.0s: 47.86 F1@2.5s: 54.81 F1@3.0s: 61.45 F1@Avg: 33.35 |
| text-to-video-retrieval-on-kinetic-geb | FROZEN-revised | mAP: 23.39 |
| text-to-video-retrieval-on-kinetic-geb | FROZEN-revised (two-stream) | text-to-video R@1: 12.8 text-to-video R@10: 45.66 text-to-video R@5: 34.81 text-to-video R@50: 68.1 |