4 个月前

通过多模态引导在长视频中定位关键时刻

通过多模态引导在长视频中定位关键时刻

摘要

近期引入的大规模长视频MAD和Ego4D数据集使研究人员能够研究当前最先进的方法在长视频环境下的表现,得出了有趣的发现:现有的定位方法由于无法处理长时间的视频序列,在应对这一具有挑战性的任务和设置时表现不佳。本文提出了一种通过识别并剔除非描述窗口来提高长视频自然语言定位性能的方法。我们设计了一个由引导模型(Guidance Model)和基础定位模型组成的引导定位框架。引导模型强调描述性窗口,而基础定位模型则分析短时间窗口以确定哪些片段能准确匹配给定的语言查询。我们为引导模型提供了两种设计方案:无查询依赖(Query-Agnostic)和有查询依赖(Query-Dependent),这两种方案在效率和准确性之间取得了平衡。实验结果表明,我们的方法在MAD数据集上比现有最先进模型提高了4.1%,在Ego4D(自然语言查询,NLQ)数据集上提高了4.52%。为了重现我们的实验,所需的代码、数据以及MAD的音频特征均可从以下链接获取:https://github.com/waybarrios/guidance-based-video-grounding。

代码仓库

waybarrios/guidance-based-video-grounding
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
natural-language-moment-retrieval-on-madVLG-Net + Guidance Model
R@1,IoU=0.1: 5.60
R@1,IoU=0.3: 4.28
R@1,IoU=0.5: 2.48
R@10,IoU=0.1: 23.64
R@10,IoU=0.3: 19.86
R@10,IoU=0.5: 13.72
R@100,IoU=0.1: 55.59
R@100,IoU=0.3: 49.38
R@100,IoU=0.5: 39.12
R@5,IoU=0.1: 16.07
R@5,IoU=0.5: 8.78
R@50,IoU=0.1: 45.35
R@50,IoU=0.3: 39.77
R@50,IoU=0.5: 30.22
natural-language-moment-retrieval-on-madZero-Shot CLIP + Guidance Model
R@1,IoU=0.1: 9.3
R@1,IoU=0.3: 4.65
R@1,IoU=0.5: 2.16
R@10,IoU=0.1: 24.30
R@10,IoU=0.3: 17.73
R@10,IoU=0.5: 11.09
R@100,IoU=0.1: 47.35
R@100,IoU=0.3: 39.58
R@100,IoU=0.5: 29.68
R@5,IoU=0.1: 18.96
R@5,IoU=0.3: 13.06
R@5,IoU=0.5: 7.4
R@50,IoU=0.1: 39.79
R@50,IoU=0.3: 32.23
R@50,IoU=0.5: 23.21

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过多模态引导在长视频中定位关键时刻 | 论文 | HyperAI超神经