4 个月前

MirrorGAN:通过重描述学习文本到图像生成

MirrorGAN:通过重描述学习文本到图像生成

摘要

根据给定的文本描述生成图像有两个目标:视觉真实性和语义一致性。尽管在使用生成对抗网络生成高质量且视觉上逼真的图像方面已经取得了显著进展,但确保文本描述与视觉内容之间的语义一致性仍然非常具有挑战性。本文提出了一种新的全局-局部注意力和语义保持的文本到图像再到文本框架,称为MirrorGAN,以解决这一问题。MirrorGAN利用了通过重述学习文本到图像生成的思想,由三个模块组成:语义文本嵌入模块(Semantic Text Embedding Module, STEM)、用于级联图像生成的全局-局部协作注意力模块(Global-Local Collaborative Attentive Module for Cascaded Image Generation, GLAM)以及语义文本再生和对齐模块(Semantic Text Regeneration and Alignment Module, STREAM)。STEM生成词级和句级的嵌入向量。GLAM采用级联架构,从粗略到精细尺度逐步生成目标图像,同时利用局部词注意力和全局句注意力来逐步增强生成图像的多样性和语义一致性。STREAM旨在从生成的图像中重新生成文本描述,使其在语义上与给定的文本描述保持一致。在两个公开基准数据集上的详尽实验表明,MirrorGAN优于其他代表性最新方法。

代码仓库

Kyfafyd/MirrorGAN
pytorch
GitHub 中提及
komiya-m/MirrorGAN
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cubMirrorGAN
Inception score: 4.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MirrorGAN:通过重描述学习文本到图像生成 | 论文 | HyperAI超神经