4 个月前

在空间不同位置生成多个对象

Tobias Hinz; Stefan Heinrich; Stefan Wermter

摘要

近期对生成对抗网络（Generative Adversarial Networks, GANs）的改进使得基于自然语言描述（如图像标题）生成高分辨率的真实图像成为可能。此外，条件GANs允许我们通过标签甚至自然语言描述来控制图像生成过程。然而，对图像布局进行细粒度控制，即在图像中精确定位特定对象的位置，仍然难以实现。特别是对于需要在不同空间位置包含多个不同对象的图像来说，这一问题尤为突出。本文介绍了一种新方法，通过在生成器和判别器中添加一个对象路径，可以控制图像中任意数量的对象的位置。该方法不需要详细的语义布局，仅需所需对象的边界框及其相应的标签即可。对象路径专注于单个对象，并在由边界框指定的位置迭代应用。全局路径则关注图像背景和整体布局。我们在Multi-MNIST、CLEVR以及更为复杂的MS-COCO数据集上进行了实验。实验结果表明，通过使用对象路径，我们可以控制图像中的对象位置，并能够建模包含多个位于不同位置的对象的复杂场景。进一步的实验还显示，对象路径专注于单个对象并学习与其相关的特征，而全局路径则关注全局图像特征和背景。

代码仓库

tohinz/multiple-objects-gan

官方

pytorch

基准测试

基准	方法	指标
text-to-image-generation-on-coco	StackGAN + OP	FID: 55.30 Inception score: 12.12
text-to-image-generation-on-coco	AttnGAN + OP	FID: 33.35 Inception score: 24.76 SOA-C: 25.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供