3 个月前

用于内容丰富文本到图像生成的自回归模型扩展

用于内容丰富文本到图像生成的自回归模型扩展

摘要

我们提出Pathways自回归文本到图像生成模型(Parti),该模型能够生成高保真度的逼真图像,并支持包含复杂构图与世界知识的丰富内容合成。Parti将文本到图像生成任务建模为序列到序列的学习问题,类似于机器翻译,但其目标输出为图像标记序列,而非另一种语言的文本标记序列。这一策略可自然地利用大规模语言模型领域中已有的丰富研究成果,而这些模型通过持续扩大数据规模与模型参数量,不断提升其能力与性能。我们的方法简洁明了:首先,Parti采用基于Transformer的图像分词器ViT-VQGAN,将图像编码为离散标记序列;其次,通过将编码器-解码器Transformer模型扩展至200亿参数规模,实现了稳定的质量提升,在MS-COCO数据集上达到了7.23的零样本FID得分与3.22的微调后FID得分,创下当前最优水平。通过对“局部叙事”(Localized Narratives)数据集以及PartiPrompts(P2)——一个包含超过1600个英文提示的综合性新基准——的深入分析,我们验证了Parti在多种类别与不同难度任务中的卓越表现。同时,我们也系统探讨并指出了当前模型存在的局限性,以明确未来改进的关键方向。更多高分辨率生成图像请访问:https://parti.research.google/

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于内容丰富文本到图像生成的自回归模型扩展 | 论文 | HyperAI超神经