3 个月前

视觉推理优化中的图像思维提示方法研究:面向多模态大语言模型

视觉推理优化中的图像思维提示方法研究:面向多模态大语言模型

摘要

近年来,思维链(Chain-of-Thought, CoT)及其相关基于推理过程的研究显著提升了大语言模型(Large Language Models, LLMs)在复杂推理任务中的表现。随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的不断发展,增强其解决复杂多模态推理问题的能力已成为当前研究的关键前沿。然而,将多模态推理过程融入CoT机制尚未得到充分探索。为此,我们提出了“思维图像”(Image-of-Thought, IoT)提示方法,旨在帮助MLLMs逐步提取视觉推理依据。具体而言,IoT提示方法能够根据输入图像和问题自动设计关键的视觉信息提取操作。在每一步视觉信息的精炼过程中,模型可识别出支持复杂视觉推理问题答案的具体视觉依据。与传统文本思维链不同,IoT同时利用视觉与文本双重推理线索,协助MLLMs更好地理解复杂的多模态信息。实验表明,IoT提示方法显著提升了多种MLLM在不同视觉理解任务中的零样本视觉推理性能。此外,IoT提示生成的逐步视觉特征解释,清晰揭示了模型的视觉推理过程,为分析大模型的多模态认知机制提供了可解释性支持。

基准测试

基准方法指标
visual-question-answering-on-mm-vetGPT-4o +text rationale +IoT
GPT-4 score: 72.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉推理优化中的图像思维提示方法研究:面向多模态大语言模型 | 论文 | HyperAI超神经