6 个月前

Somnath Kumar Yash Gadhia Tanuja Ganu Akshay Nambi

摘要

近年来，多模态大语言模型（MLLMs）在融合视觉与语言的任务中取得了显著性能提升。然而，在细节化的多模态理解、复杂任务的 comprehensibility（理解能力）以及多模态信息推理方面，仍面临诸多挑战。本文提出了一种名为MMCTAgent的新型多模态批判性思维代理框架，旨在解决当前MLLMs在复杂视觉推理任务中存在的固有局限性。受人类认知过程与批判性思维启发，MMCTAgent通过迭代式分析多模态信息，分解问题、规划策略，并动态演化其推理路径。此外，MMCTAgent引入了批判性思维的核心要素，包括对最终答案的验证与自我反思，其创新之处在于提出一种基于视觉的评判机制（vision-based critic），并针对具体任务识别相应的评估标准，从而显著提升其决策能力。通过在多个图像与视频理解基准上的严格评估，我们证明，无论是否引入评判模块，MMCTAgent均显著优于基础MLLMs以及其他工具增强型推理流水线。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Somnath Kumar Yash Gadhia Tanuja Ganu Akshay Nambi

摘要

近年来，多模态大语言模型（MLLMs）在融合视觉与语言的任务中取得了显著性能提升。然而，在细节化的多模态理解、复杂任务的 comprehensibility（理解能力）以及多模态信息推理方面，仍面临诸多挑战。本文提出了一种名为MMCTAgent的新型多模态批判性思维代理框架，旨在解决当前MLLMs在复杂视觉推理任务中存在的固有局限性。受人类认知过程与批判性思维启发，MMCTAgent通过迭代式分析多模态信息，分解问题、规划策略，并动态演化其推理路径。此外，MMCTAgent引入了批判性思维的核心要素，包括对最终答案的验证与自我反思，其创新之处在于提出一种基于视觉的评判机制（vision-based critic），并针对具体任务识别相应的评估标准，从而显著提升其决策能力。通过在多个图像与视频理解基准上的严格评估，我们证明，无论是否引入评判模块，MMCTAgent均显著优于基础MLLMs以及其他工具增强型推理流水线。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供