
摘要
基于Transformer的文本到图像生成模型在高分辨率图像生成方面面临生成速度慢和结构复杂的问题。本文提出一种基于分层Transformer与局部并行自回归生成机制的解决方案。我们首先采用一种简单且灵活的自监督任务——跨模态通用语言模型(CogLM),对一个包含60亿参数的Transformer模型进行预训练,随后对其进行微调,以实现快速超分辨率生成。由此构建的新一代文本到图像系统CogView2,在生成效果上与同期最先进的DALL-E-2模型相比具有相当竞争力,并天然支持基于文本引导的交互式图像编辑。
代码仓库
thudm/cogview2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-coco | CogView2(6B, Finetuned) | FID: 17.7 |
| text-to-image-generation-on-coco | CogView2(6B, Finetuned) | FID: 24 |