3 个月前

MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架

MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架

摘要

近年来,多模态大语言模型(MLLMs)在融合视觉与语言的任务中取得了显著性能提升。然而,在细节化的多模态理解、复杂任务的 comprehensibility(理解能力)以及多模态信息推理方面,仍面临诸多挑战。本文提出了一种名为MMCTAgent的新型多模态批判性思维代理框架,旨在解决当前MLLMs在复杂视觉推理任务中存在的固有局限性。受人类认知过程与批判性思维启发,MMCTAgent通过迭代式分析多模态信息,分解问题、规划策略,并动态演化其推理路径。此外,MMCTAgent引入了批判性思维的核心要素,包括对最终答案的验证与自我反思,其创新之处在于提出一种基于视觉的评判机制(vision-based critic),并针对具体任务识别相应的评估标准,从而显著提升其决策能力。通过在多个图像与视频理解基准上的严格评估,我们证明,无论是否引入评判模块,MMCTAgent均显著优于基础MLLMs以及其他工具增强型推理流水线。

基准测试

基准方法指标
visual-question-answering-on-mm-vetMMCTAgent (GPT-4 + GPT-4V)
GPT-4 score: 74.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMCTAgent:面向复杂视觉推理的多模态批判性思维Agent框架 | 论文 | HyperAI超神经