
摘要
在本文中,我们提出了一种注意力生成对抗网络(Attentional Generative Adversarial Network, AttnGAN),该网络允许通过注意力驱动的多阶段精炼来实现细粒度的文本到图像生成。借助一种新颖的注意力生成网络,AttnGAN可以通过关注自然语言描述中的相关词汇,在图像的不同子区域合成细粒度的细节。此外,我们还提出了一种深度注意力多模态相似性模型,用于计算细粒度的图像-文本匹配损失以训练生成器。所提出的AttnGAN显著优于先前的技术水平,在CUB数据集上将最佳报告的 inception 分数提高了14.14%,在更具挑战性的COCO数据集上则提高了170.25%。我们还通过可视化AttnGAN的注意力层进行了详细的分析,首次展示了分层注意力GAN能够自动选择单词级别的条件来生成图像的不同部分。
代码仓库
bprabhakar/text-to-image
pytorch
Maymaher/StackGANv2
pytorch
GitHub 中提及
ucsd-ml-arts/ml-art-final-jeffrey
pytorch
GitHub 中提及
taoxugit/AttnGAN
pytorch
rightlit/cycle-image-gan-rev
pytorch
GitHub 中提及
davidstap/AttnGAN
pytorch
huiyegit/T2I_CL
pytorch
GitHub 中提及
alexmotogna/attngan
pytorch
GitHub 中提及
sidward14/Style-AttnGAN
pytorch
GitHub 中提及
komiya-m/MirrorGAN
pytorch
GitHub 中提及
pioneerAlpha/BanglaText2ImageGeneration
pytorch
GitHub 中提及
aleksey-egorov/attngan
pytorch
GitHub 中提及
ChihchengHsieh/AttnGAN_Implementation
GitHub 中提及
priscillalui/StackGAN-Stories
pytorch
GitHub 中提及
taki0112/AttnGAN-Tensorflow
tf
GitHub 中提及
roxanasoto/AttGanESRGAN
pytorch
GitHub 中提及
oxygenlu/ratlip
pytorch
GitHub 中提及
Vigneshthanga/stackGAN-v2
pytorch
GitHub 中提及
alexmotogna/generatorapi
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-cub | AttnGAN | Inception score: 4.36 |
| text-to-image-generation-on-ms-coco | AttnGAN | FID: 35.49 Inception score: 25.89 SOA-C: 25.88 |
| text-to-image-generation-on-multi-modal | AttnGAN | Acc: 13.0 FID: 125.98 LPIPS: 0.512 Real: 11.9 |