
摘要
近期对生成对抗网络(Generative Adversarial Networks, GANs)的改进使得基于自然语言描述(如图像标题)生成高分辨率的真实图像成为可能。此外,条件GANs允许我们通过标签甚至自然语言描述来控制图像生成过程。然而,对图像布局进行细粒度控制,即在图像中精确定位特定对象的位置,仍然难以实现。特别是对于需要在不同空间位置包含多个不同对象的图像来说,这一问题尤为突出。本文介绍了一种新方法,通过在生成器和判别器中添加一个对象路径,可以控制图像中任意数量的对象的位置。该方法不需要详细的语义布局,仅需所需对象的边界框及其相应的标签即可。对象路径专注于单个对象,并在由边界框指定的位置迭代应用。全局路径则关注图像背景和整体布局。我们在Multi-MNIST、CLEVR以及更为复杂的MS-COCO数据集上进行了实验。实验结果表明,通过使用对象路径,我们可以控制图像中的对象位置,并能够建模包含多个位于不同位置的对象的复杂场景。进一步的实验还显示,对象路径专注于单个对象并学习与其相关的特征,而全局路径则关注全局图像特征和背景。
代码仓库
tohinz/multiple-objects-gan
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-image-generation-on-coco | StackGAN + OP | FID: 55.30 Inception score: 12.12 |
| text-to-image-generation-on-coco | AttnGAN + OP | FID: 33.35 Inception score: 24.76 SOA-C: 25.46 |