
摘要
人类在特定情境下轻松解决多模态任务的能力(即仅需少量示例或简单指令即可完成),是当前多模态系统难以有效模仿的一大挑战。在这项研究中,我们展示了通过有效的扩展,大型多模态模型的任务无关上下文学习能力可以显著提升。我们引入了Emu2,这是一款具有370亿参数的生成式多模态模型,训练数据为大规模多模态序列,并采用了统一的自回归目标。Emu2表现出强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。该模型在少样本设置下的多个多模态理解任务中创下了新的记录。当经过指令微调以遵循特定指令时,Emu2在诸如大型多模态模型的问题回答基准测试和开放式的主题驱动生成等复杂任务上进一步达到了新的最先进水平。这些成就表明,Emu2可以作为基础模型和通用接口,应用于广泛的多模态任务。代码和模型已公开发布,以促进未来的研究。
代码仓库
baaivision/emu
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| personalized-image-generation-on-dreambench | Emu2 SDXL v1.0 | Concept Preservation (CP): 0.528 Overall (CP * PF): 0.364 Prompt Following (PF): 0.690 |
| visual-question-answering-on-mm-vet | Emu2-Chat | GPT-4 score: 48.5 Params: 37B |
| visual-question-answering-on-mm-vet-v2 | Emu2-Chat | GPT-4 score: 38.0±0.1 |