Jiahui YuYuanzhong XuJing Yu KohThang LuongGunjan BaidZirui WangVijay VasudevanAlexander KuYinfei YangBurcu Karagol AyanBen HutchinsonWei HanZarana ParekhXin LiHan ZhangJason BaldridgeYonghui Wu

摘要
我们提出Pathways自回归文本到图像生成模型(Parti),该模型能够生成高保真度的逼真图像,并支持包含复杂构图与世界知识的丰富内容合成。Parti将文本到图像生成任务建模为序列到序列的学习问题,类似于机器翻译,但其目标输出为图像标记序列,而非另一种语言的文本标记序列。这一策略可自然地利用大规模语言模型领域中已有的丰富研究成果,而这些模型通过持续扩大数据规模与模型参数量,不断提升其能力与性能。我们的方法简洁明了:首先,Parti采用基于Transformer的图像分词器ViT-VQGAN,将图像编码为离散标记序列;其次,通过将编码器-解码器Transformer模型扩展至200亿参数规模,实现了稳定的质量提升,在MS-COCO数据集上达到了7.23的零样本FID得分与3.22的微调后FID得分,创下当前最优水平。通过对“局部叙事”(Localized Narratives)数据集以及PartiPrompts(P2)——一个包含超过1600个英文提示的综合性新基准——的深入分析,我们验证了Parti在多种类别与不同难度任务中的卓越表现。同时,我们也系统探讨并指出了当前模型存在的局限性,以明确未来改进的关键方向。更多高分辨率生成图像请访问:https://parti.research.google/
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-coco-1 | Parti | FID: 7.23 |
| text-to-image-generation-on-coco-1 | Parti Finetuned | FID: 3.22 |
| text-to-image-generation-on-laion-coco | Parti | FID: 15.97 |
| text-to-image-generation-on-laion-coco | Parti Finetuned | FID: 8.39 |