4 个月前

鸸鹋:多模态生成预训练

鸸鹋:多模态生成预训练

摘要

我们介绍了Emu,这是一种基于Transformer的多模态基础模型,能够在多模态上下文中无缝生成图像和文本。该全模态模型可以通过统一的自回归训练过程无差别地接收任何单模态或多模态数据输入(例如,交错的图像、文本和视频)。首先,视觉信号被编码为嵌入向量,并与文本标记一起形成交错的输入序列。随后,Emu通过端到端训练实现统一目标,即在多模态序列中分类下一个文本标记或回归下一个视觉嵌入向量。这种多功能的多模态能力使得大规模探索多样化的预训练数据源成为可能,例如包含交错帧和文本的视频、包含交错图像和文本的网页,以及网络规模的图像-文本对和视频-文本对。Emu可以作为通用的多模态接口,支持从图像到文本和从文本到图像的任务,并且支持上下文中的图像和文本生成。在包括图像描述、视觉问答、视频问答和文本到图像生成在内的广泛零样本/少样本任务中,Emu表现出色,优于当前最先进的大型多模态模型。此外,通过指令微调实现的多模态助手等扩展功能也展示了令人印象深刻的表现。

代码仓库

doc-doc/NExT-OE
pytorch
GitHub 中提及
baaivision/emu
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-casual-qa-on-next-qaEmu(0-shot)
WUPS: 23.4
visual-question-answering-on-mm-vetEmu-14B
GPT-4 score: 36.3±0.3
Params: 14B
visual-question-answering-on-mm-vet-w-oEmu-14B
GPT-4 score: 36.3±0.3
visual-question-answering-on-vizwiz-1Emu-I *
Accuracy: 38.1
visual-question-answering-on-vqa-v2-1Emu-I *
Accuracy: 57.5
visual-question-answering-vqa-on-core-mmEmu
Abductive: 36.57
Analogical: 18.19
Deductive: 28.9
Overall score: 28.24
Params: 14B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
鸸鹋:多模态生成预训练 | 论文 | HyperAI超神经