4 个月前

偏移扩散用于文本到图像生成

偏移扩散用于文本到图像生成

摘要

我们介绍了Corgi,一种新颖的文本到图像生成方法。Corgi基于我们提出的偏移扩散模型,该模型在从输入文本生成图像嵌入方面表现出色。与DALL-E 2中使用的基线扩散模型不同,我们的方法通过设计新的初始化分布和扩散过程中的新转换步骤,无缝地将预训练CLIP模型的先验知识编码到其扩散过程中。与强大的DALL-E 2基线相比,我们的方法在从文本生成图像嵌入的效率和效果上均表现更佳,从而实现了更优质的文本到图像生成。我们进行了广泛的大型实验,并从定量指标和人类评估两个方面进行了评价,结果表明我们的方法相较于现有方法具有更强的生成能力。此外,我们的模型支持半监督和无语言训练的文本到图像生成任务,在这些任务中,训练数据集中的部分或全部图像没有对应的标题。仅使用1.7%带有标题的图像进行训练,我们的半监督模型在MS-COCO数据集上的零样本文本到图像生成任务中取得了与DALL-E 2相当的FID结果。Corgi还在下游无语言文本到图像生成任务的不同数据集中取得了最新的最佳结果,在这些任务中显著优于前一方法Lafite。

代码仓库

drboog/Shifted_Diffusion
官方
jax
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
偏移扩散用于文本到图像生成 | 论文 | HyperAI超神经