4 个月前

统一生成对抗网络用于可控图像到图像转换

统一生成对抗网络用于可控图像到图像转换

摘要

我们提出了一种统一的生成对抗网络(GAN)用于可控图像到图像的转换,即在可控结构的引导下将源域中的图像转换为目标域中的图像。除了基于参考图像进行条件化外,我们还展示了模型如何根据可控结构生成图像,例如类别标签、物体关键点、人体骨架和场景语义图。所提出的模型由一个生成器和一个判别器组成,它们以条件图像和目标可控结构作为输入。通过这种方式,条件图像可以提供外观信息,而可控结构则可以提供生成目标结果所需的结构信息。此外,我们的模型通过三种新颖的损失函数学习图像到图像的映射关系,即颜色损失、可控结构引导的循环一致性损失和可控结构引导的内容自保持损失。同时,我们引入了Fréchet ResNet距离(FRD)来评估生成图像的质量。在两个具有挑战性的图像转换任务上的实验表明,我们的模型能够生成令人信服的结果,并在这两项任务上显著优于其他最先进的方法。与此同时,所提出的框架是一种统一解决方案,因此它可以应用于解决其他由可控结构引导的图像转换任务,如地标引导的面部表情转换和关键点引导的人体图像生成。据我们所知,我们是第一个使单一GAN框架能够在所有此类由可控结构引导的图像转换任务中工作的研究团队。代码可在 https://github.com/Ha0Tang/GestureGAN 获取。

代码仓库

Ha0Tang/GestureGAN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-view-image-to-image-translation-onUniGAN
KL: 2.16
LPIPS: 0.3817
PSNR: 23.3632
SD: 16.4788
SSIM: 0.5064
cross-view-image-to-image-translation-on-1UniGAN
LPIPS: 0.4527
cross-view-image-to-image-translation-on-2UniGAN
KL: 5.17
PSNR: 22.0273
SD: 17.6542
SSIM: 0.3357
cross-view-image-to-image-translation-on-4UniGAN
KL: 2.6
PSNR: 22.8223
SD: 19.8276
SSIM: 0.5366
gesture-to-gesture-translation-on-ntu-handUniGAN
AMT: 29.3
FID: 6.7493
FRD: 1.7401
IS: 2.3783
PSNR: 32.6574
gesture-to-gesture-translation-on-senz3dUniGAN
AMT: 27.6
FID: 12.4465
FRD: 2.2104
IS: 2.2159
PSNR: 31.542

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
统一生成对抗网络用于可控图像到图像转换 | 论文 | HyperAI超神经