
摘要
在探索通用人工智能(Artificial General Intelligence, AGI)的发展过程中,这些模型面临的一项关键任务是解释和处理来自多个图像输入的信息。然而,大型多模态模型(Large Multimodal Models, LMMs)在这样的场景中遇到了两个问题:(1) 缺乏细粒度的感知能力,以及 (2) 倾向于将多个图像中的信息混合在一起。我们首先广泛研究了 LMMs 在处理多个输入图像时对细粒度视觉细节的感知能力。研究集中在两个方面:首先是图像到图像匹配(评估 LMMs 是否能有效推理并配对相关图像),其次是多图像到文本匹配(评估 LMMs 是否能准确捕捉和总结详细的图像信息)。我们在一系列开源和闭源大型模型上进行了评估,包括 GPT-4V、Gemini、OpenFlamingo 和 MMICL。为了提高模型性能,我们进一步开发了一种基于多输入多模态模型的对比链式思维(Contrastive Chain-of-Thought, CoCoT)提示方法。该方法要求 LMMs 比较多个图像输入之间的相似性和差异性,然后根据识别出的相似性和差异性引导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的有效性。
代码仓库
vista-h/gpt-4v_social_media
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-reasoning-on-winoground | Gemini + CoCoT | Group Score: 27.75 Image Score: 32.5 Text Score: 40 |
| visual-reasoning-on-winoground | OpenFlamingo + CoCoT | Group Score: 41.5 Image Score: 55.25 Text Score: 58.25 |
| visual-reasoning-on-winoground | OpenFlamingo | Group Score: 33.25 Image Score: 41.25 Text Score: 39 |
| visual-reasoning-on-winoground | GPT-4V | Group Score: 37.75 Image Score: 42.5 Text Score: 54.5 |
| visual-reasoning-on-winoground | GPT-4V + CoCoT | Group Score: 44.5 Image Score: 49.5 Text Score: 58.5 |
| visual-reasoning-on-winoground | MMICL + CCoT | Group Score: 47.5 Image Score: 48 Text Score: 51 |
| visual-reasoning-on-winoground | Gemini | Group Score: 25 Image Score: 26 Text Score: 30.75 |
| visual-reasoning-on-winoground | MMICL + CoCoT | Group Score: 50.75 Image Score: 52.5 Text Score: 64.25 |
| visual-reasoning-on-winoground | OpenFlamingo + DDCoT | Group Score: 39 Image Score: 47.25 Text Score: 47.5 |
| visual-reasoning-on-winoground | MMICL + DDCoT | Group Score: 36.75 Image Score: 45 Text Score: 46.75 |
| visual-reasoning-on-winoground | OpenFlamingo + CCoT | Group Score: 20 Image Score: 27.5 Text Score: 42.5 |
| visual-reasoning-on-winoground | Gemini + DDCoT | Group Score: 23.75 Image Score: 25 Text Score: 45 |
| visual-reasoning-on-winoground | Gemini + CCoT | Group Score: 20.75 Image Score: 33 Text Score: 22.5 |