3 个月前

凝视与聚焦:面向多事件视频问答的记忆提示方法

凝视与聚焦:面向多事件视频问答的记忆提示方法

摘要

视频问答(VideoQA)已成为评估智能体理解人类日常行为能力的重要工具。尽管大型多模态视觉语言模型在诸多多模态任务中取得了显著进展,但在涉及多个“人-物体交互事件”的复杂视频情境下进行推理,仍然面临巨大挑战。相比之下,人类能够通过一系列情景记忆作为锚点,快速定位与问题相关的关键时刻,从而高效完成推理。为模拟这一高效推理机制,我们提出了一种名为“Glance-Focus”的新模型。一种直观的方法是利用动作检测模型预测一组动作作为关键记忆。然而,这类基于封闭词汇表的动作在不同视频领域中泛化能力有限。为此,我们采用编码器-解码器结构,在“凝视阶段”动态生成一组事件记忆,以克服固定词汇表的局限性。除了使用监督式二分匹配方法获取事件记忆外,我们进一步设计了一种无监督的记忆生成方法,从而摆脱对事件标注数据的依赖。在“聚焦阶段”,这些事件记忆充当桥梁,建立问题中高层事件概念与低层长视频内容之间的关联。给定问题后,模型首先聚焦于生成的关键事件记忆,随后通过我们设计的多层级交叉注意力机制,进一步聚焦于最相关的视频时刻,以支持精准推理。我们在四个多事件视频问答基准数据集(STAR、EgoTaskQA、AGQA 和 NExT-QA)上进行了大量实验。结果表明,所提出的Glance-Focus模型在各项挑战性推理任务中均达到当前最优性能,超越了现有的大型模型。相关代码与模型已开源,地址为:https://github.com/ByZ0e/Glance-Focus。

代码仓库

byz0e/glance-focus
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-egotaskqaGF(uns)
Direct: 43.06
question-answering-on-egotaskqaGF(sup)
Direct: 44.27
video-question-answering-on-agqa-2-0-balancedGF (uns) - S3D
Average Accuracy: 53.33
video-question-answering-on-agqa-2-0-balancedAIO - ViT
Average Accuracy: 48.59
video-question-answering-on-agqa-2-0-balancedGF (sup) - Faster RCNN
Average Accuracy: 55.08
video-question-answering-on-next-qaGF
Accuracy: 58.83
video-question-answering-on-situatedGF(sup)
Average Accuracy: 53.94
video-question-answering-on-situatedGF(uns)
Average Accuracy: 53.86

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
凝视与聚焦:面向多事件视频问答的记忆提示方法 | 论文 | HyperAI超神经