Haozhe ZhaoZefan CaiShuzheng SiXiaojian MaKaikai AnLiang ChenZixuan LiuSheng WangWenjuan HanBaobao Chang

摘要
自深度学习复兴以来,依托大规模语言模型(LLMs)增强的视觉-语言模型(VLMs)迅速崛起,受到广泛关注。然而,尽管LLMs能够通过上下文学习(in-context learning, ICL)有效利用丰富的背景知识和任务信息,大多数VLMs在理解包含多张图像的复杂多模态提示(multi-modal prompts)方面仍面临显著挑战,导致其在下游视觉-语言任务中的表现受限。针对这一问题,本文提出三项关键改进:1)提出一种新型视觉-语言模型——多模态上下文学习模型(Multi-Modal In-Context Learning, MMICL),使VLM能够高效处理多模态输入;2)设计一种新颖的上下文组织方案,显著增强VLM的上下文学习能力;3)构建了多模态上下文学习(Multi-modal In-Context Learning, MIC)数据集,专门用于提升VLM对复杂多模态提示的理解能力。实验结果表明,MMICL在广泛的一般性视觉-语言任务上实现了新的最先进零样本(zero-shot)性能,尤其在MME和MMBench等复杂基准测试中表现突出。分析进一步揭示,MMICL有效解决了复杂多模态提示理解的难题,并展现出卓越的上下文学习能力。此外,我们观察到,MMICL能够有效缓解VLM中存在的语言偏见(language bias)问题——这一常见缺陷常导致模型在面对大量文本上下文时产生幻觉(hallucination)。本文相关代码、数据集、数据处理工具及模型均已开源,地址为:https://github.com/PKUnlp-icler/MIC
代码仓库
haozhezhao/mic
官方
pytorch
GitHub 中提及
pkunlp-icler/mic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-reasoning-on-winoground | MMICL (FLAN-T5-XXL) | Group Score: 43.00 Image Score: 44.99 Text Score: 45.50 |