4 个月前

StackGAN:利用堆叠生成对抗网络实现从文本到照片级图像合成

StackGAN:利用堆叠生成对抗网络实现从文本到照片级图像合成

摘要

从文本描述中合成高质量图像在计算机视觉领域是一个具有挑战性的问题,并且拥有许多实际应用。现有的文本到图像生成方法可以大致反映给定描述的含义,但它们往往缺乏必要的细节和生动的对象部分。本文提出了一种基于文本描述生成256x256照片级真实图像的堆叠生成对抗网络(StackGAN)。我们通过草图细化过程将这一难题分解为更易管理的子问题。第一阶段的生成对抗网络(Stage-I GAN)根据给定的文本描述绘制对象的基本形状和颜色,生成低分辨率的第一阶段图像。第二阶段的生成对抗网络(Stage-II GAN)以第一阶段的结果和文本描述作为输入,生成具有照片级真实细节的高分辨率图像。该网络能够修正第一阶段结果中的缺陷,并通过细化过程添加引人注目的细节。为了提高合成图像的多样性并稳定条件生成对抗网络(conditional-GAN)的训练,我们引入了一种新的条件增强技术(Conditioning Augmentation),该技术鼓励潜在条件流形上的平滑性。广泛的实验和在基准数据集上与现有最先进方法的对比表明,所提出的方法在基于文本描述生成照片级真实图像方面取得了显著改进。

代码仓库

基准测试

基准方法指标
text-to-image-generation-on-cubStackGAN
Inception score: 3.7
text-to-image-generation-on-oxford-102StackGAN
Inception score: 3.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StackGAN:利用堆叠生成对抗网络实现从文本到照片级图像合成 | 论文 | HyperAI超神经