
摘要
语义图像合成(SIS)是图像到图像翻译的一个子类,其中使用语义布局生成逼真的照片图像。最先进的条件生成对抗网络(GANs)需要大量的配对数据来完成这一任务,而通用的非配对图像到图像翻译框架在性能上则相对较低,因为它们对语义布局进行颜色编码,并学习外观上的对应关系而不是语义内容。基于高质量生成图像应能重新分割回其原始语义布局的假设,我们提出了一种新的无监督SIS范式(USIS),该范式利用自监督分割损失和全图小波判别。此外,为了匹配真实图像的高频分布,我们提出了一种新颖的小波域生成器架构。我们在三个具有挑战性的数据集上测试了我们的方法,并展示了其在缩小配对模型与非配对模型之间性能差距方面的能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-to-image-translation-on-ade20k-labels | USIS-Wavelet | FID: 34.5 mIoU: 16.95 |
| image-to-image-translation-on-cityscapes | USIS-Wavelet | FID: 50.14 mIoU: 42.32 |
| image-to-image-translation-on-coco-stuff | USIS-Wavelet | FID: 28.6 mIoU: 13.4 |