3 个月前

自回归多模态模型的扩展:预训练与指令微调

自回归多模态模型的扩展:预训练与指令微调

摘要

我们提出CM3Leon(发音为“变色龙”),这是一种基于检索增强、以标记(token)为单位、仅采用解码器架构的多模态语言模型,能够生成并填充文本与图像。CM3Leon采用CM3多模态架构,并进一步展现出在更大规模数据上进行扩展训练与多样化指令式数据微调所带来的显著优势。它是首个采用源自纯文本语言模型训练范式的训练流程构建的多模态模型,该流程包含大规模检索增强的预训练阶段,以及后续的多任务监督微调(Supervised Fine-Tuning, SFT)阶段。此外,CM3Leon是一种通用型模型,支持文本到图像生成与图像到文本生成两种任务,从而使得我们能够引入自包含的对比解码方法,生成高质量输出。大量实验表明,该训练范式对多模态模型具有极高的有效性。在文本到图像生成任务中,CM3Leon仅需相当于同类方法五分之一的训练计算量,便实现了当前最优的性能表现(零样本MS-COCO FID达4.88)。经过SFT微调后,CM3Leon在从语言引导的图像编辑到图像控制生成与分割等各类任务中,均展现出前所未有的可控性水平。

代码仓库

基准测试

基准方法指标
text-to-image-generation-on-coco-1CM3Leon-7B
FID: 4.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自回归多模态模型的扩展:预训练与指令微调 | 论文 | HyperAI超神经