
摘要
在计算机视觉领域,生成自然场景始终是一项具有挑战性的任务。当生成过程需基于视角截然不同的图像时,这一挑战尤为显著。其主要原因在于,跨视角理解、对应以及转换外观与语义信息并非易事。本文旨在通过条件生成对抗网络(conditional Generative Adversarial Networks, cGAN)解决跨视角图像合成这一新问题,涵盖从航拍视图到街景视图以及反向转换的场景。为此,我们提出了两种新型网络架构:Crossview Fork(X-Fork)与 Crossview Sequential(X-Seq),分别用于生成分辨率为64×64和256×256像素的场景图像。X-Fork架构采用单一生成器与单一判别器,生成器在目标视角下同时生成图像及其对应的语义分割图。而X-Seq架构则采用两个cGAN级联设计:第一个cGAN生成目标图像,该图像随后被输入第二个cGAN以生成对应的语义分割图。第二个cGAN提供的反馈信息有助于提升第一个cGAN生成图像的清晰度。两种架构均能学习生成自然图像及其对应的语义分割图。实验结果表明,与仅关注场景视觉外观的传统图像到图像翻译方法相比,本文所提出的方法在捕捉并保持源视角与目标视角中物体真实语义方面表现更优。通过大量定性与定量评估,我们的方法在跨视角自然场景生成任务中,相较两种前沿技术,展现出更强的有效性与优越性能。
代码仓库
kregmi/cross-view-image-synthesis
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-view-image-to-image-translation-on | X-Fork | SSIM: 0.4921 |
| cross-view-image-to-image-translation-on | X-Seq | SSIM: 0.5171 |
| cross-view-image-to-image-translation-on-1 | X-Seq | SSIM: 0.3663 |
| cross-view-image-to-image-translation-on-1 | X-Fork | SSIM: 0.3682 |
| cross-view-image-to-image-translation-on-2 | X-Fork | SSIM: 0.4963 |
| cross-view-image-to-image-translation-on-2 | X-Seq | SSIM: 0.5031 |
| cross-view-image-to-image-translation-on-3 | X-Seq | SSIM: 0.2725 |
| cross-view-image-to-image-translation-on-4 | X-Fork | SSIM: 0.4356 |
| cross-view-image-to-image-translation-on-4 | X-Seq | SSIM: 0.4231 |
| cross-view-image-to-image-translation-on-5 | X-Fork | SSIM: 0.2740 |
| cross-view-image-to-image-translation-on-5 | X-Seq | SSIM: 0.2738 |