6 个月前

摘要

本文提出了一种基于分解式多阶段、模块化推理框架的视频问答（VideoQA）方法。以往的模块化方法虽在单一规划阶段上展现出潜力，但该阶段缺乏与视觉内容的直接关联。然而，通过构建一个简单而有效的基线模型，我们发现此类系统在复杂视频问答场景中往往表现出脆弱的行为。因此，与传统的单阶段规划方法不同，本文提出一种多阶段系统，包含事件解析器、视觉定位阶段以及结合外部记忆的最终推理阶段。所有阶段均无需训练，仅通过大模型的少样本提示（few-shot prompting）实现，且在每个阶段均可生成可解释的中间输出。通过分解底层规划与任务的复杂性，所提出的MoReVQA方法在标准视频问答基准测试（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）上取得了当前最优性能，并成功拓展至相关任务（如基于视觉定位的视频问答、段落描述生成）。

源 PDF