6 个月前

计算机视觉

Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid Zirui Wang Vijay Vasudevan Alexander Ku Yinfei Yang Burcu Karagol Ayan

摘要

我们提出Pathways自回归文本到图像生成模型（Parti），该模型能够生成高保真度的逼真图像，并支持包含复杂构图与世界知识的丰富内容合成。Parti将文本到图像生成任务建模为序列到序列的学习问题，类似于机器翻译，但其目标输出为图像标记序列，而非另一种语言的文本标记序列。这一策略可自然地利用大规模语言模型领域中已有的丰富研究成果，而这些模型通过持续扩大数据规模与模型参数量，不断提升其能力与性能。我们的方法简洁明了：首先，Parti采用基于Transformer的图像分词器ViT-VQGAN，将图像编码为离散标记序列；其次，通过将编码器-解码器Transformer模型扩展至200亿参数规模，实现了稳定的质量提升，在MS-COCO数据集上达到了7.23的零样本FID得分与3.22的微调后FID得分，创下当前最优水平。通过对“局部叙事”（Localized Narratives）数据集以及PartiPrompts（P2）——一个包含超过1600个英文提示的综合性新基准——的深入分析，我们验证了Parti在多种类别与不同难度任务中的卓越表现。同时，我们也系统探讨并指出了当前模型存在的局限性，以明确未来改进的关键方向。更多高分辨率生成图像请访问：https://parti.research.google/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid Zirui Wang Vijay Vasudevan Alexander Ku Yinfei Yang Burcu Karagol Ayan

摘要

我们提出Pathways自回归文本到图像生成模型（Parti），该模型能够生成高保真度的逼真图像，并支持包含复杂构图与世界知识的丰富内容合成。Parti将文本到图像生成任务建模为序列到序列的学习问题，类似于机器翻译，但其目标输出为图像标记序列，而非另一种语言的文本标记序列。这一策略可自然地利用大规模语言模型领域中已有的丰富研究成果，而这些模型通过持续扩大数据规模与模型参数量，不断提升其能力与性能。我们的方法简洁明了：首先，Parti采用基于Transformer的图像分词器ViT-VQGAN，将图像编码为离散标记序列；其次，通过将编码器-解码器Transformer模型扩展至200亿参数规模，实现了稳定的质量提升，在MS-COCO数据集上达到了7.23的零样本FID得分与3.22的微调后FID得分，创下当前最优水平。通过对“局部叙事”（Localized Narratives）数据集以及PartiPrompts（P2）——一个包含超过1600个英文提示的综合性新基准——的深入分析，我们验证了Parti在多种类别与不同难度任务中的卓越表现。同时，我们也系统探讨并指出了当前模型存在的局限性，以明确未来改进的关键方向。更多高分辨率生成图像请访问：https://parti.research.google/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供