6 个月前

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

摘要

近期多项研究表明，扩散模型在文本到图像生成任务中表现出色，为图像生成研究开辟了新的方向。谷歌推出的Imagen模型顺应这一研究趋势，在文本到图像生成任务中表现优于DALL-E 2，成为当前最先进的模型之一。然而，Imagen仅采用T5语言模型进行文本编码，难以充分捕捉文本的语义信息；此外，其使用的高效UNet架构在图像处理方面并非最优选择。针对上述问题，本文提出一种新型文本到图像扩散模型——Swinv2-Imagen，该模型基于分层视觉Transformer与场景图结构，融合语义布局信息。在所提模型中，实体与关系的特征向量被有效提取并引入扩散过程，显著提升了生成图像的质量。此外，本文还设计了一种基于Swin-Transformer的UNet架构，称为Swinv2-Unet，以克服传统CNN卷积操作带来的局限性。通过在MSCOCO、CUB和MM-CelebA-HQ三个真实世界数据集上开展的大量实验，验证了所提模型的性能。实验结果表明，Swinv2-Imagen在多个指标上均优于当前主流的先进方法，展现出更强的生成能力与语义一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

摘要

近期多项研究表明，扩散模型在文本到图像生成任务中表现出色，为图像生成研究开辟了新的方向。谷歌推出的Imagen模型顺应这一研究趋势，在文本到图像生成任务中表现优于DALL-E 2，成为当前最先进的模型之一。然而，Imagen仅采用T5语言模型进行文本编码，难以充分捕捉文本的语义信息；此外，其使用的高效UNet架构在图像处理方面并非最优选择。针对上述问题，本文提出一种新型文本到图像扩散模型——Swinv2-Imagen，该模型基于分层视觉Transformer与场景图结构，融合语义布局信息。在所提模型中，实体与关系的特征向量被有效提取并引入扩散过程，显著提升了生成图像的质量。此外，本文还设计了一种基于Swin-Transformer的UNet架构，称为Swinv2-Unet，以克服传统CNN卷积操作带来的局限性。通过在MSCOCO、CUB和MM-CelebA-HQ三个真实世界数据集上开展的大量实验，验证了所提模型的性能。实验结果表明，Swinv2-Imagen在多个指标上均优于当前主流的先进方法，展现出更强的生成能力与语义一致性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Swinv2-Imagen：用于文本到图像生成的分层视觉Transformer扩散模型 | 论文 | HyperAI超神经