3 个月前

TraveLER:面向视频问答的模块化多LMM代理框架

TraveLER:面向视频问答的模块化多LMM代理框架

摘要

近年来,基于图像的大型多模态模型(LMMs)在视频问答(VideoQA)任务中取得了显著进展,其采用逐帧处理的方法,通过大规模预训练实现零样本(zero-shot)推理。然而,这些模型必须同时具备定位相关信息、提取信息并回答问题的能力。现有方法通常在单次遍历中完成所有步骤,缺乏在获取信息不足或错误时进行动态调整的能力。为解决这一问题,我们提出一种基于多个具有不同角色的智能体(agents)的模块化多LMM代理框架,其中由一个规划器(Planner)代理负责协调,通过整合其他智能体的共享反馈来动态更新指令。具体而言,我们提出了TraveLER方法,该方法能够制定一个“遍历”视频的计划,针对单个视频帧提出问题以“定位”并存储关键信息,随后“评估”是否已收集到足够的信息以回答原始问题。若信息仍不足,系统可基于已有知识进行“重规划”(replanning),从而实现更高效的推理过程。通过大量实验验证,我们发现TraveLER方法在多个视频问答基准测试中均显著提升了性能,且无需在特定数据集上进行微调。相关代码已开源,地址为:https://github.com/traveler-framework/TraveLER。

代码仓库

traveler-framework/traveler
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-question-answering-on-perception-testTraveLER
Accuracy (Top-1): 50.2
video-question-answering-on-situatedTraveLER (0-shot)
Average Accuracy: 44.9
zero-shot-video-question-answer-on-egoschema-1TraveLER
Accuracy: 53.3
zero-shot-video-question-answer-on-next-qaTraveLER (GPT-4)
Accuracy: 68.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TraveLER:面向视频问答的模块化多LMM代理框架 | 论文 | HyperAI超神经