
摘要
生成对抗网络(GANs)在训练过程中难以保持稳定,尽管向判别器输入中注入实例噪声(instance noise)被认为是一种有前景的解决方案,但在实际应用中效果并不理想。本文提出了一种新型GAN框架——Diffusion-GAN,该框架利用前向扩散过程生成服从高斯混合分布的实例噪声。Diffusion-GAN由三个核心组件构成:自适应扩散过程、依赖扩散步长的判别器以及生成器。真实数据与生成数据均通过相同的自适应扩散过程进行处理。在每一个扩散步长(diffusion timestep)上,噪声与数据的比例不同,而依赖于步长的判别器则学习区分经过扩散处理的真实数据与生成数据。生成器通过反向传播穿过前向扩散链来接收判别器的反馈,其扩散链长度会自适应调整,以平衡噪声与数据之间的水平。理论上,我们证明了判别器所采用的步长依赖策略能够为生成器提供一致且有益的指导,从而使其能够逼近真实数据分布。我们在多个数据集上对Diffusion-GAN进行了实验验证,结果表明,相较于多种强大的GAN基线模型,该方法在生成图像的真实性、训练稳定性以及数据效率方面均展现出显著优势,优于当前最先进的GAN模型。
代码仓库
mingyuanzhou/sid-lsg
pytorch
GitHub 中提及
zhendong-wang/prompt-diffusion
pytorch
GitHub 中提及
jegzheng/truncated-diffusion-probabilistic-models
pytorch
GitHub 中提及
Zhendong-Wang/Diffusion-GAN
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-afhq-cat | Diffusion InsGen | FID: 2.40 |
| image-generation-on-afhq-dog | Diffusion InsGen | FID: 4.83 |
| image-generation-on-afhq-wild | Diffusion InsGen | FID: 1.51 |
| image-generation-on-celeba-64x64 | Diffusion StyleGAN2 | FID: 1.69 |
| image-generation-on-ffhq-1024-x-1024 | Diffusion StyleGAN2 | FID: 2.83 |
| image-generation-on-lsun-bedroom-256-x-256 | Diffusion ProjectedGAN | FID: 1.43 |
| image-generation-on-lsun-bedroom-256-x-256 | Diffusion StyleGAN2 | FID: 3.65 |
| image-generation-on-lsun-bedroom-256-x-256 | Diffusion ProjectedGAN (DINOv2) | FD: 547.61 Precision: 0.79 Recall: 0.28 |
| image-generation-on-lsun-churches-256-x-256 | Diffusion ProjectedGAN | FID: 1.85 |
| image-generation-on-lsun-churches-256-x-256 | Diffusion StyleGAN2 | FID: 3.17 |
| image-generation-on-stl-10 | Diffusion ProjectedGAN | FID: 6.91 |
| image-generation-on-stl-10 | Diffusion StyleGAN2 | FID: 11.53 |