3 个月前

LatteGAN:用于多轮文本条件图像操作的视觉引导语言注意力

LatteGAN:用于多轮文本条件图像操作的视觉引导语言注意力

摘要

近年来,文本引导的图像编辑任务在视觉-语言领域受到广泛关注。尽管以往多数研究集中于单轮图像编辑,本文的目标是解决更具挑战性的多轮图像编辑(Multi-turn Image Manipulation, MTIM)任务。先前针对该任务的模型能够在给定一系列指令及先前生成图像的基础上,迭代地生成图像。然而,该方法存在生成不足以及指令中描述物体的生成质量较差的问题,从而导致整体性能下降。为克服上述缺陷,本文提出一种新型架构——视觉引导语言注意力生成对抗网络(LatteGAN)。该模型通过引入视觉引导语言注意力(Visually Guided Language Attention, Latte)模块,为生成器提取细粒度的文本表征;同时采用文本条件U-Net判别器架构,能够同时判别图像的全局与局部表征,以区分真实图像与伪造图像。在两个独立的MTIM数据集CoDraw和i-CLEVR上的大量实验表明,所提出的模型在性能上达到了当前最优水平。

代码仓库

smatsumori/lattegan
官方
pytorch

基准测试

基准方法指标
text-to-image-generation-on-geneva-codrawLatteGAN
F1-score: 77.51± 0.52
rsim: 54.16± 0.21
text-to-image-generation-on-geneva-i-clevrLatteGAN
F1-score: 97.26±1.56
rsim: 83.21± 1.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LatteGAN:用于多轮文本条件图像操作的视觉引导语言注意力 | 论文 | HyperAI超神经