7 个月前

摘要

从文本描述中合成高质量图像在计算机视觉领域是一个具有挑战性的问题，并且拥有许多实际应用。现有的文本到图像生成方法可以大致反映给定描述的含义，但它们往往缺乏必要的细节和生动的对象部分。本文提出了一种基于文本描述生成256x256照片级真实图像的堆叠生成对抗网络（StackGAN）。我们通过草图细化过程将这一难题分解为更易管理的子问题。第一阶段的生成对抗网络（Stage-I GAN）根据给定的文本描述绘制对象的基本形状和颜色，生成低分辨率的第一阶段图像。第二阶段的生成对抗网络（Stage-II GAN）以第一阶段的结果和文本描述作为输入，生成具有照片级真实细节的高分辨率图像。该网络能够修正第一阶段结果中的缺陷，并通过细化过程添加引人注目的细节。为了提高合成图像的多样性并稳定条件生成对抗网络（conditional-GAN）的训练，我们引入了一种新的条件增强技术（Conditioning Augmentation），该技术鼓励潜在条件流形上的平滑性。广泛的实验和在基准数据集上与现有最先进方法的对比表明，所提出的方法在基于文本描述生成照片级真实图像方面取得了显著改进。

源 PDF