3 个月前

DF-GAN:一种简单而有效的文本到图像生成基线

DF-GAN:一种简单而有效的文本到图像生成基线

摘要

从文本描述生成高质量、逼真的图像是一项极具挑战性的任务。现有的文本到图像生成对抗网络(Text-to-Image Generative Adversarial Networks)通常采用堆叠式架构作为主干网络,但仍存在三大缺陷:其一,堆叠式架构导致不同图像尺度生成器之间的特征纠缠;其二,现有研究倾向于在对抗学习中引入并固定额外的网络以保证文本与图像的语义一致性,这限制了这些网络的监督能力;其三,以往方法广泛采用基于跨模态注意力的文本-图像融合机制,但由于计算成本较高,其在某些特定图像尺度上表现受限。针对上述问题,本文提出一种更简洁但更高效的深度融合生成对抗网络(Deep Fusion Generative Adversarial Networks, DF-GAN)。具体而言,我们提出以下三项创新:(i)一种新型的一阶段文本到图像主干网络,可直接生成高分辨率图像,且避免了不同生成器之间的特征纠缠;(ii)一种新型的目标感知判别器(Target-Aware Discriminator),由“匹配感知梯度惩罚”(Matching-Aware Gradient Penalty)与“单向输出”(One-Way Output)组成,能够在不引入额外网络的前提下,显著增强文本与图像之间的语义一致性;(iii)一种新型的深度文本-图像融合模块,通过深化文本与视觉特征之间的融合过程,实现更充分的跨模态信息整合。与当前最先进的方法相比,所提出的DF-GAN结构更为简洁,生成效率更高,在多个广泛使用的基准数据集上均取得了更优的性能,能够更高效地生成逼真且与文本高度匹配的图像。

代码仓库

tobran/galip
pytorch
GitHub 中提及
tobran/DF-GAN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cubDF-GAN
Inception score: 4.86
text-to-image-generation-on-multi-modalDFGAN
Acc: 17.3
FID: 137.60
LPIPS: 0.581
Real: 14.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DF-GAN:一种简单而有效的文本到图像生成基线 | 论文 | HyperAI超神经