摘要
生成对抗网络(Generative Adversarial Networks, GANs)因其卓越的图像生成能力而受到广泛关注。然而,GAN的训练过程极具挑战性,原因在于生成器(Generator, G)与判别器(Discriminator, D)之间的对抗关系本质上是不公平的。为使这一对抗更加均衡,本文提出一种训练GAN的新视角,称为一致潜在表示与重建(Consistent Latent Representation and Reconstruction, CLR-GAN)。在该框架中,我们将生成器G与判别器D视为互为逆过程:判别器在完成分类任务的同时,还需恢复预定义的潜在码;而生成器则需重建真实的输入样本。通过这一机制,我们建立了生成器潜在空间与判别器输出特征之间的内在关联。基于该先验知识,我们设计了一种新的训练准则,使G与D在训练过程中处于更公平的地位。在多个数据集和网络架构上的实验结果表明,该方法显著提升了GAN的训练稳定性,并生成了更高质量的图像——在CIFAR10上FID指标提升31.22%,在AFHQ-Cat数据集上提升达39.5%。我们期望这一新视角能够启发研究者从更广泛的视角重新思考GAN的训练机制,突破传统“两玩家博弈”的局限。代码已公开,可访问:https://github.com/Petecheco/CLR-GAN。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-afhq-cat | CLR-GAN | FID: 4.45 |
| image-generation-on-celeba-64x64 | CLR-GAN | FID: 13.63 |
| image-generation-on-cifar-10 | CLR-GAN | FID: 23.3 |
| image-generation-on-ffhq-256-x-256 | CLR-GAN | FID: 3.37 Precision: 0.71 Recall: 0.44 |
| image-generation-on-imagenet-64x64 | CLR-GAN | FID: 20.27 |
| image-generation-on-lsun-churches-256-x-256 | CLR-GAN | FID: 3.43 Recall: 0.48 |