
摘要
我们展示了一种学习映射的方法,该映射能够将从人脸图像中提取的内容编码(content code)与一个随机选取的风格编码(style code)共同映射为一幅动漫图像。基于我们简单而有效的风格与内容定义,我们推导出一种对抗性损失(adversarial loss),该损失确保了映射具有高度多样性——仅需一个内容编码,即可生成风格迥异的大量动漫图像。在合理假设下,该映射不仅具备多样性,还能准确地表征在给定输入人脸图像条件下,生成动漫图像的概率分布。相比之下,现有的多模态生成方法难以捕捉动漫中复杂的风格特征。大量定量实验验证了该映射的正确性;大量定性结果表明,与当前最先进(SOTA)方法相比,本方法能够生成更加丰富多样的风格。最后,我们证明,本方法对内容与风格的形式化定义,使得我们能够在无需任何视频训练数据的情况下,实现视频到视频的风格迁移。
代码仓库
mchong6/GANsNRoses
官方
pytorch
GitHub 中提及
ZackPashkin/text2cartoon-pytorch-CLIP
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-to-image-translation-on-cat2dog | DRIT++ | DFID: 160.1 FID: 91.5 |
| image-to-image-translation-on-cat2dog | CouncilGAN | DFID: 172.5 FID: 90.8 |
| image-to-image-translation-on-cat2dog | GNR | DFID: 26.1 FID: 26.9 |
| image-to-image-translation-on-cat2dog | StarGANv2 | DFID: 53.6 FID: 44.2 |
| image-to-image-translation-on-selfie2anime | StarGANv2 | DFID: 83.0 FID: 59.8 LPIPS: 0.427 |
| image-to-image-translation-on-selfie2anime | CouncilGAN | DFID: 56.2 FID: 38.1 LPIPS: 0.43 |
| image-to-image-translation-on-selfie2anime | GNR | DFID: 35.6 FID: 34.4 LPIPS: 0.505 |
| image-to-image-translation-on-selfie2anime | DRIT++ | DFID: 94.6 FID: 63.8 LPIPS: 0.201 |