4 个月前

CoCoT:面向大型多模态模型的对比链式思维提示方法,支持多个图像输入

CoCoT:面向大型多模态模型的对比链式思维提示方法,支持多个图像输入

摘要

在探索通用人工智能(Artificial General Intelligence, AGI)的发展过程中,这些模型面临的一项关键任务是解释和处理来自多个图像输入的信息。然而,大型多模态模型(Large Multimodal Models, LMMs)在这样的场景中遇到了两个问题:(1) 缺乏细粒度的感知能力,以及 (2) 倾向于将多个图像中的信息混合在一起。我们首先广泛研究了 LMMs 在处理多个输入图像时对细粒度视觉细节的感知能力。研究集中在两个方面:首先是图像到图像匹配(评估 LMMs 是否能有效推理并配对相关图像),其次是多图像到文本匹配(评估 LMMs 是否能准确捕捉和总结详细的图像信息)。我们在一系列开源和闭源大型模型上进行了评估,包括 GPT-4V、Gemini、OpenFlamingo 和 MMICL。为了提高模型性能,我们进一步开发了一种基于多输入多模态模型的对比链式思维(Contrastive Chain-of-Thought, CoCoT)提示方法。该方法要求 LMMs 比较多个图像输入之间的相似性和差异性,然后根据识别出的相似性和差异性引导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的有效性。

代码仓库

基准测试

基准方法指标
visual-reasoning-on-winogroundGemini + CoCoT
Group Score: 27.75
Image Score: 32.5
Text Score: 40
visual-reasoning-on-winogroundOpenFlamingo + CoCoT
Group Score: 41.5
Image Score: 55.25
Text Score: 58.25
visual-reasoning-on-winogroundOpenFlamingo
Group Score: 33.25
Image Score: 41.25
Text Score: 39
visual-reasoning-on-winogroundGPT-4V
Group Score: 37.75
Image Score: 42.5
Text Score: 54.5
visual-reasoning-on-winogroundGPT-4V + CoCoT
Group Score: 44.5
Image Score: 49.5
Text Score: 58.5
visual-reasoning-on-winogroundMMICL + CCoT
Group Score: 47.5
Image Score: 48
Text Score: 51
visual-reasoning-on-winogroundGemini
Group Score: 25
Image Score: 26
Text Score: 30.75
visual-reasoning-on-winogroundMMICL + CoCoT
Group Score: 50.75
Image Score: 52.5
Text Score: 64.25
visual-reasoning-on-winogroundOpenFlamingo + DDCoT
Group Score: 39
Image Score: 47.25
Text Score: 47.5
visual-reasoning-on-winogroundMMICL + DDCoT
Group Score: 36.75
Image Score: 45
Text Score: 46.75
visual-reasoning-on-winogroundOpenFlamingo + CCoT
Group Score: 20
Image Score: 27.5
Text Score: 42.5
visual-reasoning-on-winogroundGemini + DDCoT
Group Score: 23.75
Image Score: 25
Text Score: 45
visual-reasoning-on-winogroundGemini + CCoT
Group Score: 20.75
Image Score: 33
Text Score: 22.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoCoT:面向大型多模态模型的对比链式思维提示方法,支持多个图像输入 | 论文 | HyperAI超神经