3 个月前

CogView2:通过分层Transformer实现更快速、更优质的文本到图像生成

CogView2:通过分层Transformer实现更快速、更优质的文本到图像生成

摘要

基于Transformer的文本到图像生成模型在高分辨率图像生成方面面临生成速度慢和结构复杂的问题。本文提出一种基于分层Transformer与局部并行自回归生成机制的解决方案。我们首先采用一种简单且灵活的自监督任务——跨模态通用语言模型(CogLM),对一个包含60亿参数的Transformer模型进行预训练,随后对其进行微调,以实现快速超分辨率生成。由此构建的新一代文本到图像系统CogView2,在生成效果上与同期最先进的DALL-E-2模型相比具有相当竞争力,并天然支持基于文本引导的交互式图像编辑。

代码仓库

thudm/cogview2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoCogView2(6B, Finetuned)
FID: 17.7
text-to-image-generation-on-cocoCogView2(6B, Finetuned)
FID: 24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CogView2:通过分层Transformer实现更快速、更优质的文本到图像生成 | 论文 | HyperAI超神经