3 个月前

MoReVQA:面向视频问答的模块化推理模型探索

MoReVQA:面向视频问答的模块化推理模型探索

摘要

本文提出了一种基于分解式多阶段、模块化推理框架的视频问答(VideoQA)方法。以往的模块化方法虽在单一规划阶段上展现出潜力,但该阶段缺乏与视觉内容的直接关联。然而,通过构建一个简单而有效的基线模型,我们发现此类系统在复杂视频问答场景中往往表现出脆弱的行为。因此,与传统的单阶段规划方法不同,本文提出一种多阶段系统,包含事件解析器、视觉定位阶段以及结合外部记忆的最终推理阶段。所有阶段均无需训练,仅通过大模型的少样本提示(few-shot prompting)实现,且在每个阶段均可生成可解释的中间输出。通过分解底层规划与任务的复杂性,所提出的MoReVQA方法在标准视频问答基准测试(NExT-QA、iVQA、EgoSchema、ActivityNet-QA)上取得了当前最优性能,并成功拓展至相关任务(如基于视觉定位的视频问答、段落描述生成)。

基准测试

基准方法指标
zero-shot-video-question-answer-on-next-qaMoReVQA(PaLM-2)
Accuracy: 69.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MoReVQA:面向视频问答的模块化推理模型探索 | 论文 | HyperAI超神经