4 个月前

学习绘制什么和在哪里绘制

学习绘制什么和在哪里绘制

摘要

生成对抗网络(GANs)最近展示了合成逼真的现实世界图像的能力,例如室内场景、专辑封面、漫画、人脸、鸟类和花卉。尽管现有的模型可以根据全局约束(如类别标签或标题)合成图像,但它们无法控制姿态或物体位置。我们提出了一种新的模型——生成对抗何物何处网络(Generative Adversarial What-Where Network, GAWWN),该模型能够在给定描述内容及其位置的指令下合成图像。我们在Caltech-UCSD鸟类数据集上展示了高质量的128 x 128图像合成结果,这些结果既基于非正式文本描述,也基于物体位置。我们的系统提供了对鸟的整体边界框及其各个组成部分的控制。通过建模部分位置上的条件分布,我们的系统还支持任意子集部分(例如仅喙和尾部)的条件输入,从而提供了一个高效的选择部分位置的接口。此外,我们在更具挑战性的领域中展示了初步结果,即在MPII人体姿态数据集上进行文本和位置可控的人体动作图像合成。

基准测试

基准方法指标
text-to-image-generation-on-cubGAWWN
FID: 67.22
Inception score: 3.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习绘制什么和在哪里绘制 | 论文 | HyperAI超神经