LinKevin Qinghong ; ZhangPengchuan ; ChenJoya ; PramanickShraman ; GaoDifei ; WangAlex Jinpeng ; YanRui ; ShouMike Zheng

摘要
视频时间定位(VTG)旨在根据自定义语言查询(如句子或单词)从视频中定位目标片段(例如连续区间或不相连的镜头),对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型,这些模型使用特定类型的标签进行训练,例如时刻检索(时间区间)和亮点检测(价值曲线),这限制了它们在各种VTG任务和标签中的泛化能力。本文中,我们提出了一个统一的多样化VTG标签和任务的方法,称为UniVTG,沿着三个方向展开:首先,我们重新审视了广泛范围内的VTG标签和任务,并定义了一个统一的公式。基于此,我们开发了数据注释方案以创建可扩展的伪监督。其次,我们开发了一种有效且灵活的时间定位模型,该模型能够应对每个任务并充分利用每个标签。最后,得益于统一框架,我们能够从大规模多样化的标签中解锁时间定位预训练,并发展更强的时间定位能力,例如零样本定位。我们在三个任务(时刻检索、亮点检测和视频摘要)上进行了广泛的实验,涉及七个数据集(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS),结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。
代码仓库
showlab/univtg
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | UniVTG (w/ PT) | Hit@1: 66.28 mAP: 40.54 |
| highlight-detection-on-qvhighlights | UniVTG | Hit@1: 60.96 mAP: 38.20 |
| moment-retrieval-on-qvhighlights | UniVTG (w/ PT) | R@1 IoU=0.5: 65.43 R@1 IoU=0.7: 50.06 mAP: 43.63 mAP@0.5: 64.06 mAP@0.75: 45.02 |
| moment-retrieval-on-qvhighlights | UniVTG | R@1 IoU=0.5: 58.86 R@1 IoU=0.7: 40.86 mAP: 35.47 mAP@0.5: 57.60 mAP@0.75: 35.59 |
| natural-language-moment-retrieval-on-tacos | UniVTG | R@1,IoU=0.3: 51.44 R@1,IoU=0.5: 34.97 R@1,IoU=0.7: 21.07 mIoU: 35.76 |