3 个月前

VideoAgent:以大语言模型为智能体的长视频理解

VideoAgent:以大语言模型为智能体的长视频理解

摘要

长视频理解是计算机视觉领域的一项重大挑战,要求模型具备对长时序多模态序列进行推理的能力。受人类认知过程启发,我们强调在长视频理解中交互式推理与规划的重要性,而非单纯依赖处理冗长视觉输入的能力。为此,我们提出一种新型基于智能体(agent)的系统——VideoAgent,该系统以大型语言模型为核心智能体,通过迭代方式识别并整合关键信息以回答问题,同时利用视觉-语言基础模型作为工具,实现视觉信息的翻译与检索。在具有挑战性的EgoSchema和NExT-QA基准测试中,VideoAgent分别实现了54.1%和71.3%的零样本准确率,且平均仅需8.4帧和8.2帧输入。实验结果表明,该方法在性能与效率方面均显著优于当前最先进的技术,充分展现了基于智能体范式在推动长视频理解发展方面的巨大潜力。

代码仓库

wxh1996/VideoAgent
pytorch
GitHub 中提及
Ziyang412/VideoTree
pytorch
GitHub 中提及

基准测试

基准方法指标
zero-shot-video-question-answer-on-next-qaVideoAgent (GPT-4)
Accuracy: 71.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoAgent:以大语言模型为智能体的长视频理解 | 论文 | HyperAI超神经