4 个月前

UniVTG:迈向统一的视频-语言时间定位

UniVTG:迈向统一的视频-语言时间定位

摘要

视频时间定位(VTG)旨在根据自定义语言查询(如句子或单词)从视频中定位目标片段(例如连续区间或不相连的镜头),对于社交媒体上的视频浏览至关重要。目前大多数方法都开发了特定任务的模型,这些模型使用特定类型的标签进行训练,例如时刻检索(时间区间)和亮点检测(价值曲线),这限制了它们在各种VTG任务和标签中的泛化能力。本文中,我们提出了一个统一的多样化VTG标签和任务的方法,称为UniVTG,沿着三个方向展开:首先,我们重新审视了广泛范围内的VTG标签和任务,并定义了一个统一的公式。基于此,我们开发了数据注释方案以创建可扩展的伪监督。其次,我们开发了一种有效且灵活的时间定位模型,该模型能够应对每个任务并充分利用每个标签。最后,得益于统一框架,我们能够从大规模多样化的标签中解锁时间定位预训练,并发展更强的时间定位能力,例如零样本定位。我们在三个任务(时刻检索、亮点检测和视频摘要)上进行了广泛的实验,涉及七个数据集(QVHighlights、Charades-STA、TACoS、Ego4D、YouTube Highlights、TVSum 和 QFVS),结果证明了所提出框架的有效性和灵活性。代码已发布在 https://github.com/showlab/UniVTG。

代码仓库

showlab/univtg
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-qvhighlightsUniVTG (w/ PT)
Hit@1: 66.28
mAP: 40.54
highlight-detection-on-qvhighlightsUniVTG
Hit@1: 60.96
mAP: 38.20
moment-retrieval-on-qvhighlightsUniVTG (w/ PT)
R@1 IoU=0.5: 65.43
R@1 IoU=0.7: 50.06
mAP: 43.63
mAP@0.5: 64.06
mAP@0.75: 45.02
moment-retrieval-on-qvhighlightsUniVTG
R@1 IoU=0.5: 58.86
R@1 IoU=0.7: 40.86
mAP: 35.47
mAP@0.5: 57.60
mAP@0.75: 35.59
natural-language-moment-retrieval-on-tacosUniVTG
R@1,IoU=0.3: 51.44
R@1,IoU=0.5: 34.97
R@1,IoU=0.7: 21.07
mIoU: 35.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniVTG:迈向统一的视频-语言时间定位 | 论文 | HyperAI超神经