HyperAIHyperAI

Command Palette

Search for a command to run...

通过多模态引导在长视频中定位关键时刻

Wayner Barrios Mattia Soldan Alberto Mario Ceballos-Arroyo Fabian Caba Heilbron Bernard Ghanem

摘要

近期引入的大规模长视频MAD和Ego4D数据集使研究人员能够研究当前最先进的方法在长视频环境下的表现,得出了有趣的发现:现有的定位方法由于无法处理长时间的视频序列,在应对这一具有挑战性的任务和设置时表现不佳。本文提出了一种通过识别并剔除非描述窗口来提高长视频自然语言定位性能的方法。我们设计了一个由引导模型(Guidance Model)和基础定位模型组成的引导定位框架。引导模型强调描述性窗口,而基础定位模型则分析短时间窗口以确定哪些片段能准确匹配给定的语言查询。我们为引导模型提供了两种设计方案:无查询依赖(Query-Agnostic)和有查询依赖(Query-Dependent),这两种方案在效率和准确性之间取得了平衡。实验结果表明,我们的方法在MAD数据集上比现有最先进模型提高了4.1%,在Ego4D(自然语言查询,NLQ)数据集上提高了4.52%。为了重现我们的实验,所需的代码、数据以及MAD的音频特征均可从以下链接获取:https://github.com/waybarrios/guidance-based-video-grounding


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过多模态引导在长视频中定位关键时刻 | 论文 | HyperAI超神经