
摘要
我们提出了一种统一的生成对抗网络(GAN)用于可控图像到图像的转换,即在可控结构的引导下将源域中的图像转换为目标域中的图像。除了基于参考图像进行条件化外,我们还展示了模型如何根据可控结构生成图像,例如类别标签、物体关键点、人体骨架和场景语义图。所提出的模型由一个生成器和一个判别器组成,它们以条件图像和目标可控结构作为输入。通过这种方式,条件图像可以提供外观信息,而可控结构则可以提供生成目标结果所需的结构信息。此外,我们的模型通过三种新颖的损失函数学习图像到图像的映射关系,即颜色损失、可控结构引导的循环一致性损失和可控结构引导的内容自保持损失。同时,我们引入了Fréchet ResNet距离(FRD)来评估生成图像的质量。在两个具有挑战性的图像转换任务上的实验表明,我们的模型能够生成令人信服的结果,并在这两项任务上显著优于其他最先进的方法。与此同时,所提出的框架是一种统一解决方案,因此它可以应用于解决其他由可控结构引导的图像转换任务,如地标引导的面部表情转换和关键点引导的人体图像生成。据我们所知,我们是第一个使单一GAN框架能够在所有此类由可控结构引导的图像转换任务中工作的研究团队。代码可在 https://github.com/Ha0Tang/GestureGAN 获取。
代码仓库
Ha0Tang/GestureGAN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-view-image-to-image-translation-on | UniGAN | KL: 2.16 LPIPS: 0.3817 PSNR: 23.3632 SD: 16.4788 SSIM: 0.5064 |
| cross-view-image-to-image-translation-on-1 | UniGAN | LPIPS: 0.4527 |
| cross-view-image-to-image-translation-on-2 | UniGAN | KL: 5.17 PSNR: 22.0273 SD: 17.6542 SSIM: 0.3357 |
| cross-view-image-to-image-translation-on-4 | UniGAN | KL: 2.6 PSNR: 22.8223 SD: 19.8276 SSIM: 0.5366 |
| gesture-to-gesture-translation-on-ntu-hand | UniGAN | AMT: 29.3 FID: 6.7493 FRD: 1.7401 IS: 2.3783 PSNR: 32.6574 |
| gesture-to-gesture-translation-on-senz3d | UniGAN | AMT: 27.6 FID: 12.4465 FRD: 2.2104 IS: 2.2159 PSNR: 31.542 |