6 个月前

摘要

从文本描述生成高质量、逼真的图像是一项极具挑战性的任务。现有的文本到图像生成对抗网络（Text-to-Image Generative Adversarial Networks）通常采用堆叠式架构作为主干网络，但仍存在三大缺陷：其一，堆叠式架构导致不同图像尺度生成器之间的特征纠缠；其二，现有研究倾向于在对抗学习中引入并固定额外的网络以保证文本与图像的语义一致性，这限制了这些网络的监督能力；其三，以往方法广泛采用基于跨模态注意力的文本-图像融合机制，但由于计算成本较高，其在某些特定图像尺度上表现受限。针对上述问题，本文提出一种更简洁但更高效的深度融合生成对抗网络（Deep Fusion Generative Adversarial Networks, DF-GAN）。具体而言，我们提出以下三项创新：（i）一种新型的一阶段文本到图像主干网络，可直接生成高分辨率图像，且避免了不同生成器之间的特征纠缠；（ii）一种新型的目标感知判别器（Target-Aware Discriminator），由“匹配感知梯度惩罚”（Matching-Aware Gradient Penalty）与“单向输出”（One-Way Output）组成，能够在不引入额外网络的前提下，显著增强文本与图像之间的语义一致性；（iii）一种新型的深度文本-图像融合模块，通过深化文本与视觉特征之间的融合过程，实现更充分的跨模态信息整合。与当前最先进的方法相比，所提出的DF-GAN结构更为简洁，生成效率更高，在多个广泛使用的基准数据集上均取得了更优的性能，能够更高效地生成逼真且与文本高度匹配的图像。

源 PDF