6 个月前

计算机视觉

Shoya Matsumori Yuki Abe Kosuke Shingyouchi Komei Sugiura Michita Imai

摘要

近年来，文本引导的图像编辑任务在视觉-语言领域受到广泛关注。尽管以往多数研究集中于单轮图像编辑，本文的目标是解决更具挑战性的多轮图像编辑（Multi-turn Image Manipulation, MTIM）任务。先前针对该任务的模型能够在给定一系列指令及先前生成图像的基础上，迭代地生成图像。然而，该方法存在生成不足以及指令中描述物体的生成质量较差的问题，从而导致整体性能下降。为克服上述缺陷，本文提出一种新型架构——视觉引导语言注意力生成对抗网络（LatteGAN）。该模型通过引入视觉引导语言注意力（Visually Guided Language Attention, Latte）模块，为生成器提取细粒度的文本表征；同时采用文本条件U-Net判别器架构，能够同时判别图像的全局与局部表征，以区分真实图像与伪造图像。在两个独立的MTIM数据集CoDraw和i-CLEVR上的大量实验表明，所提出的模型在性能上达到了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Shoya Matsumori Yuki Abe Kosuke Shingyouchi Komei Sugiura Michita Imai

摘要

近年来，文本引导的图像编辑任务在视觉-语言领域受到广泛关注。尽管以往多数研究集中于单轮图像编辑，本文的目标是解决更具挑战性的多轮图像编辑（Multi-turn Image Manipulation, MTIM）任务。先前针对该任务的模型能够在给定一系列指令及先前生成图像的基础上，迭代地生成图像。然而，该方法存在生成不足以及指令中描述物体的生成质量较差的问题，从而导致整体性能下降。为克服上述缺陷，本文提出一种新型架构——视觉引导语言注意力生成对抗网络（LatteGAN）。该模型通过引入视觉引导语言注意力（Visually Guided Language Attention, Latte）模块，为生成器提取细粒度的文本表征；同时采用文本条件U-Net判别器架构，能够同时判别图像的全局与局部表征，以区分真实图像与伪造图像。在两个独立的MTIM数据集CoDraw和i-CLEVR上的大量实验表明，所提出的模型在性能上达到了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供