
摘要
近期引入的大规模长视频MAD和Ego4D数据集使研究人员能够研究当前最先进的方法在长视频环境下的表现,得出了有趣的发现:现有的定位方法由于无法处理长时间的视频序列,在应对这一具有挑战性的任务和设置时表现不佳。本文提出了一种通过识别并剔除非描述窗口来提高长视频自然语言定位性能的方法。我们设计了一个由引导模型(Guidance Model)和基础定位模型组成的引导定位框架。引导模型强调描述性窗口,而基础定位模型则分析短时间窗口以确定哪些片段能准确匹配给定的语言查询。我们为引导模型提供了两种设计方案:无查询依赖(Query-Agnostic)和有查询依赖(Query-Dependent),这两种方案在效率和准确性之间取得了平衡。实验结果表明,我们的方法在MAD数据集上比现有最先进模型提高了4.1%,在Ego4D(自然语言查询,NLQ)数据集上提高了4.52%。为了重现我们的实验,所需的代码、数据以及MAD的音频特征均可从以下链接获取:https://github.com/waybarrios/guidance-based-video-grounding。
代码仓库
waybarrios/guidance-based-video-grounding
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| natural-language-moment-retrieval-on-mad | VLG-Net + Guidance Model | R@1,IoU=0.1: 5.60 R@1,IoU=0.3: 4.28 R@1,IoU=0.5: 2.48 R@10,IoU=0.1: 23.64 R@10,IoU=0.3: 19.86 R@10,IoU=0.5: 13.72 R@100,IoU=0.1: 55.59 R@100,IoU=0.3: 49.38 R@100,IoU=0.5: 39.12 R@5,IoU=0.1: 16.07 R@5,IoU=0.5: 8.78 R@50,IoU=0.1: 45.35 R@50,IoU=0.3: 39.77 R@50,IoU=0.5: 30.22 |
| natural-language-moment-retrieval-on-mad | Zero-Shot CLIP + Guidance Model | R@1,IoU=0.1: 9.3 R@1,IoU=0.3: 4.65 R@1,IoU=0.5: 2.16 R@10,IoU=0.1: 24.30 R@10,IoU=0.3: 17.73 R@10,IoU=0.5: 11.09 R@100,IoU=0.1: 47.35 R@100,IoU=0.3: 39.58 R@100,IoU=0.5: 29.68 R@5,IoU=0.1: 18.96 R@5,IoU=0.3: 13.06 R@5,IoU=0.5: 7.4 R@50,IoU=0.1: 39.79 R@50,IoU=0.3: 32.23 R@50,IoU=0.5: 23.21 |