4 个月前

生成多模态模型是上下文学习者

生成多模态模型是上下文学习者

摘要

人类在特定情境下轻松解决多模态任务的能力(即仅需少量示例或简单指令即可完成),是当前多模态系统难以有效模仿的一大挑战。在这项研究中,我们展示了通过有效的扩展,大型多模态模型的任务无关上下文学习能力可以显著提升。我们引入了Emu2,这是一款具有370亿参数的生成式多模态模型,训练数据为大规模多模态序列,并采用了统一的自回归目标。Emu2表现出强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。该模型在少样本设置下的多个多模态理解任务中创下了新的记录。当经过指令微调以遵循特定指令时,Emu2在诸如大型多模态模型的问题回答基准测试和开放式的主题驱动生成等复杂任务上进一步达到了新的最先进水平。这些成就表明,Emu2可以作为基础模型和通用接口,应用于广泛的多模态任务。代码和模型已公开发布,以促进未来的研究。

代码仓库

baaivision/emu
官方
pytorch

基准测试

基准方法指标
personalized-image-generation-on-dreambenchEmu2 SDXL v1.0
Concept Preservation (CP): 0.528
Overall (CP * PF): 0.364
Prompt Following (PF): 0.690
visual-question-answering-on-mm-vetEmu2-Chat
GPT-4 score: 48.5
Params: 37B
visual-question-answering-on-mm-vet-v2Emu2-Chat
GPT-4 score: 38.0±0.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成多模态模型是上下文学习者 | 论文 | HyperAI超神经