6 个月前

摘要

长视频理解是计算机视觉领域的一项重大挑战，要求模型具备对长时序多模态序列进行推理的能力。受人类认知过程启发，我们强调在长视频理解中交互式推理与规划的重要性，而非单纯依赖处理冗长视觉输入的能力。为此，我们提出一种新型基于智能体（agent）的系统——VideoAgent，该系统以大型语言模型为核心智能体，通过迭代方式识别并整合关键信息以回答问题，同时利用视觉-语言基础模型作为工具，实现视觉信息的翻译与检索。在具有挑战性的EgoSchema和NExT-QA基准测试中，VideoAgent分别实现了54.1%和71.3%的零样本准确率，且平均仅需8.4帧和8.2帧输入。实验结果表明，该方法在性能与效率方面均显著优于当前最先进的技术，充分展现了基于智能体范式在推动长视频理解发展方面的巨大潜力。

源 PDF