3 个月前

检索增强的多模态语言建模

检索增强的多模态语言建模

摘要

近年来,DALL-E 和 CM3 等多模态模型在文本到图像生成与图像到文本生成任务中取得了显著进展。然而,这些模型将所有学习到的知识(例如埃菲尔铁塔的外观)存储于模型参数中,导致为获取更多知识而必须不断增大模型规模和训练数据量,难以实现高效扩展。为实现知识集成的可扩展性与模块化,我们提出了一种检索增强型多模态模型,使基础多模态模型(生成器)能够通过检索器从外部记忆(如网络文档)中获取相关文本与图像信息,并加以利用。具体而言,检索器采用预训练的 CLIP 模型,而生成器则基于 LAION 数据集对 CM3 Transformer 进行训练。由此构建的模型命名为“检索增强型 CM3”(Retrieval-Augmented CM3,简称 RA-CM3),是首个能够同时检索并生成文本与图像的多模态模型。实验表明,RA-CM3 在图像生成与图像描述生成任务上显著优于 DALL-E 和 CM3 等基线模型,在 MS-COCO 数据集上分别实现了 12 点的 FID 改进与 17 点的 CIDEr 提升。同时,RA-CM3 的训练计算成本极低,仅需 DALL-E 所需计算量的 30% 以下。此外,我们还发现 RA-CM3 具备多项新颖能力,例如忠实于检索内容的图像生成能力,以及多模态上下文学习(如通过示例实现图像生成)。

基准测试

基准方法指标
image-captioning-on-cocoDALL-E
CIDEr: 20.2
image-captioning-on-cocoFlamingo (80B; 4-shot)
CIDEr: 103
image-captioning-on-cocoruDALL-E-XL
CIDEr: 38.7
image-captioning-on-cocominDALL-E
CIDEr: 48
image-captioning-on-cocoParti
CIDEr: 83.9
image-captioning-on-cocoX-LXMERT
CIDEr: 55.8
image-captioning-on-cocoVanilla CM3
CIDEr: 71.9
image-captioning-on-cocoRA-CM3 (2.7B)
CIDEr: 89.1
image-captioning-on-cocoFlamingo (3B; 4-shot)
CIDEr: 85
text-to-image-generation-on-cocoVanilla CM3
FID: 29.5
text-to-image-generation-on-cocoRA-CM3 (2.7B)
FID: 15.7
text-to-image-generation-on-cocoDALL-E (12B)
FID: 28
text-to-image-generation-on-cocoStable Diffusion
FID: 12.63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
检索增强的多模态语言建模 | 论文 | HyperAI超神经