6 个月前

统一多模态

计算机视觉

Lili Yu Bowen Shi Ramakanth Pasunuru Benjamin Muller Olga Golovneva Tianlu Wang Arun Babu Binh Tang Brian Karrer Shelly Sheynin

摘要

我们提出CM3Leon（发音为“变色龙”），这是一种基于检索增强、以标记（token）为单位、仅采用解码器架构的多模态语言模型，能够生成并填充文本与图像。CM3Leon采用CM3多模态架构，并进一步展现出在更大规模数据上进行扩展训练与多样化指令式数据微调所带来的显著优势。它是首个采用源自纯文本语言模型训练范式的训练流程构建的多模态模型，该流程包含大规模检索增强的预训练阶段，以及后续的多任务监督微调（Supervised Fine-Tuning, SFT）阶段。此外，CM3Leon是一种通用型模型，支持文本到图像生成与图像到文本生成两种任务，从而使得我们能够引入自包含的对比解码方法，生成高质量输出。大量实验表明，该训练范式对多模态模型具有极高的有效性。在文本到图像生成任务中，CM3Leon仅需相当于同类方法五分之一的训练计算量，便实现了当前最优的性能表现（零样本MS-COCO FID达4.88）。经过SFT微调后，CM3Leon在从语言引导的图像编辑到图像控制生成与分割等各类任务中，均展现出前所未有的可控性水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

计算机视觉

Lili Yu Bowen Shi Ramakanth Pasunuru Benjamin Muller Olga Golovneva Tianlu Wang Arun Babu Binh Tang Brian Karrer Shelly Sheynin

摘要

我们提出CM3Leon（发音为“变色龙”），这是一种基于检索增强、以标记（token）为单位、仅采用解码器架构的多模态语言模型，能够生成并填充文本与图像。CM3Leon采用CM3多模态架构，并进一步展现出在更大规模数据上进行扩展训练与多样化指令式数据微调所带来的显著优势。它是首个采用源自纯文本语言模型训练范式的训练流程构建的多模态模型，该流程包含大规模检索增强的预训练阶段，以及后续的多任务监督微调（Supervised Fine-Tuning, SFT）阶段。此外，CM3Leon是一种通用型模型，支持文本到图像生成与图像到文本生成两种任务，从而使得我们能够引入自包含的对比解码方法，生成高质量输出。大量实验表明，该训练范式对多模态模型具有极高的有效性。在文本到图像生成任务中，CM3Leon仅需相当于同类方法五分之一的训练计算量，便实现了当前最优的性能表现（零样本MS-COCO FID达4.88）。经过SFT微调后，CM3Leon在从语言引导的图像编辑到图像控制生成与分割等各类任务中，均展现出前所未有的可控性水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供