3 个月前

用于文本到图像合成的循环仿射变换

用于文本到图像合成的循环仿射变换

摘要

文本到图像生成旨在根据文本描述生成自然图像。该任务的主要挑战在于如何有效地将文本信息融合到图像生成过程中。现有方法通常通过多个独立的融合模块(如条件批量归一化和实例归一化)自适应地将文本信息注入生成过程。然而,这些独立的融合模块不仅彼此之间存在冲突,还增加了训练的难度(详见补充材料第一页)。为解决上述问题,本文提出一种用于生成对抗网络的循环仿射变换(Recurrent Affine Transformation, RAT),通过循环神经网络将所有融合模块连接起来,以建模它们之间的长期依赖关系。此外,为提升文本与生成图像之间的语义一致性,我们在判别器中引入了空间注意力机制。该机制能够识别与文本描述相匹配的图像区域,从而指导生成器合成更具相关性的图像内容。在CUB、Oxford-102和COCO数据集上的大量实验表明,所提出的模型在生成效果上优于当前最先进的方法。\footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}

代码仓库

基准测试

基准方法指标
text-to-image-generation-on-cocoRAT-GAN
FID: 14.6
text-to-image-generation-on-cubRAT-GAN
FID: 10.21
Inception score: 5.36
text-to-image-generation-on-oxford-102RAT-GAN
FID: 16.04
Inception score: 4.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于文本到图像合成的循环仿射变换 | 论文 | HyperAI超神经