
摘要
我们提出了一种基于语义布局合成摄影图像的方法。给定一张语义标签图,该方法可以生成符合输入布局且具有摄影外观的图像。因此,该方法可作为渲染引擎,接受场景的二维语义描述并生成相应的摄影图像。与近期及同期的研究不同,我们的方法不依赖对抗训练。我们展示了通过一个具有适当结构的前馈网络,可以直接以回归目标端到端地训练来从语义布局合成摄影图像。所提出的方法可以无缝扩展到高分辨率;我们在200万像素(2-megapixel)分辨率下合成了摄影图像,这是我们的训练数据的全分辨率。在室外和室内场景数据集上进行的大量感知实验表明,所提出的 方法合成的图像比其他方法更加逼真。结果展示在补充视频中,链接为:https://youtu.be/0fhUJT21-bs
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-to-image-translation-on-ade20k-labels | CRN | Accuracy: 68.8% FID: 73.3 mIoU: 22.4 |
| image-to-image-translation-on-ade20k-outdoor | CRN | Accuracy: 68.6% FID: 99.0 mIoU: 16.5 |
| image-to-image-translation-on-cityscapes | CRN | FID: 104.7 Per-pixel Accuracy: 77.1% mIoU: 52.4 |
| image-to-image-translation-on-coco-stuff | CRN | Accuracy: 40.4% FID: 70.4 mIoU: 23.7 |