
摘要
近期多项研究表明,扩散模型在文本到图像生成任务中表现出色,为图像生成研究开辟了新的方向。谷歌推出的Imagen模型顺应这一研究趋势,在文本到图像生成任务中表现优于DALL-E 2,成为当前最先进的模型之一。然而,Imagen仅采用T5语言模型进行文本编码,难以充分捕捉文本的语义信息;此外,其使用的高效UNet架构在图像处理方面并非最优选择。针对上述问题,本文提出一种新型文本到图像扩散模型——Swinv2-Imagen,该模型基于分层视觉Transformer与场景图结构,融合语义布局信息。在所提模型中,实体与关系的特征向量被有效提取并引入扩散过程,显著提升了生成图像的质量。此外,本文还设计了一种基于Swin-Transformer的UNet架构,称为Swinv2-Unet,以克服传统CNN卷积操作带来的局限性。通过在MSCOCO、CUB和MM-CelebA-HQ三个真实世界数据集上开展的大量实验,验证了所提模型的性能。实验结果表明,Swinv2-Imagen在多个指标上均优于当前主流的先进方法,展现出更强的生成能力与语义一致性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-coco | Swinv2-Imagen | FID: 7.21 Inception score: 31.46 |
| text-to-image-generation-on-cub | Swinv2-Imagen | FID: 9.78 Inception score: 8.44 |
| text-to-image-generation-on-multi-modal | Swinv2-Imagen | FID: 10.31 |