4 个月前

AttnGAN:基于注意力机制的生成对抗网络实现细粒度文本到图像生成

AttnGAN:基于注意力机制的生成对抗网络实现细粒度文本到图像生成

摘要

在本文中,我们提出了一种注意力生成对抗网络(Attentional Generative Adversarial Network, AttnGAN),该网络允许通过注意力驱动的多阶段精炼来实现细粒度的文本到图像生成。借助一种新颖的注意力生成网络,AttnGAN可以通过关注自然语言描述中的相关词汇,在图像的不同子区域合成细粒度的细节。此外,我们还提出了一种深度注意力多模态相似性模型,用于计算细粒度的图像-文本匹配损失以训练生成器。所提出的AttnGAN显著优于先前的技术水平,在CUB数据集上将最佳报告的 inception 分数提高了14.14%,在更具挑战性的COCO数据集上则提高了170.25%。我们还通过可视化AttnGAN的注意力层进行了详细的分析,首次展示了分层注意力GAN能够自动选择单词级别的条件来生成图像的不同部分。

代码仓库

Maymaher/StackGANv2
pytorch
GitHub 中提及
ucsd-ml-arts/ml-art-final-jeffrey
pytorch
GitHub 中提及
rightlit/cycle-image-gan-rev
pytorch
GitHub 中提及
huiyegit/T2I_CL
pytorch
GitHub 中提及
alexmotogna/attngan
pytorch
GitHub 中提及
sidward14/Style-AttnGAN
pytorch
GitHub 中提及
komiya-m/MirrorGAN
pytorch
GitHub 中提及
aleksey-egorov/attngan
pytorch
GitHub 中提及
priscillalui/StackGAN-Stories
pytorch
GitHub 中提及
taki0112/AttnGAN-Tensorflow
tf
GitHub 中提及
roxanasoto/AttGanESRGAN
pytorch
GitHub 中提及
oxygenlu/ratlip
pytorch
GitHub 中提及
Vigneshthanga/stackGAN-v2
pytorch
GitHub 中提及
alexmotogna/generatorapi
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cubAttnGAN
Inception score: 4.36
text-to-image-generation-on-ms-cocoAttnGAN
FID: 35.49
Inception score: 25.89
SOA-C: 25.88
text-to-image-generation-on-multi-modalAttnGAN
Acc: 13.0
FID: 125.98
LPIPS: 0.512
Real: 11.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AttnGAN:基于注意力机制的生成对抗网络实现细粒度文本到图像生成 | 论文 | HyperAI超神经