George SteinJesse C. CresswellRasa HosseinzadehYi SuiBrendan Leigh RossValentin VillecrozeZhaoyan LiuAnthony L. CateriniJ. Eric T. TaylorGabriel Loaiza-Ganem

摘要
我们系统性地研究了涵盖语义多样性图像数据集的多种生成模型,旨在深入理解并改进用于评估这些模型的特征提取器与评价指标。基于心理物理学的最佳实践,我们开展了迄今为止规模最大的生成模型评估实验,通过人类感知实验测量生成样本的图像真实感,结果发现:目前任何现有指标均未与人类评价形成强相关性。在与17种现代评估指标(用于衡量生成模型的整体性能、保真度、多样性、稀有性及记忆现象)的对比中,我们发现:尽管人类评估认为扩散模型在感知真实感方面处于最先进水平,但这一表现并未在FID等常用指标中得到体现。该差异并非由生成样本的多样性引起,但部分原因在于对Inception-V3的过度依赖。为解决上述缺陷,我们进一步研究了替代性的自监督特征提取器,发现单个网络所编码的语义信息强烈依赖于其训练过程,并证实DINOv2-ViT-L/14能够实现对生成模型更为丰富的评估能力。随后,我们深入探究了数据记忆现象,发现生成模型在CIFAR10等简单小型数据集上确实会记忆训练样本,但在ImageNet等更复杂的大型数据集上则未必如此。然而,我们的实验表明,当前主流评估指标无法有效检测记忆现象:文献中现有指标均无法将记忆现象与其他现象(如欠拟合或模式坍缩)区分开来。为推动生成模型及其评估方法的进一步发展,我们已将所有生成图像数据集、人类评估数据,以及一个模块化工具库公开发布,该工具库支持基于9种不同编码器计算17种常用评估指标。相关资源可访问:https://github.com/layer6ai-labs/dgm-eval。
代码仓库
gmum/PALATE
jax
GitHub 中提及
louaaron/scaling-riemannian-diffusion
pytorch
GitHub 中提及
layer6ai-labs/dgm-eval
官方
pytorch
GitHub 中提及
layer6ai-labs/dgm_manifold_survey
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-ffhq-256-x-256 | StyleGAN2-ada (Exposing) | Coverage: 0.39 Density: 0.36 FD: 514.78 FID: 5.30 Precision: 0.59 Recall: 0.06 |
| image-generation-on-ffhq-256-x-256 | LDM (Exposing) | Coverage: 0.74 Density: 0.83 FD: 226.72 FID: 8.11 Precision: 0.81 Recall: 0.44 |
| image-generation-on-ffhq-256-x-256 | InsGen (Exposing) | Coverage: 0.51 FD: 436.26 FID: 3.46 Precision: 0.64 Recall: 0.13 |
| image-generation-on-ffhq-256-x-256 | Unleash-Trans (Exposing) | Coverage: 0.53 Density: 0.61 FD: 393.45 FID: 9.02 Precision: 0.76 Recall: 0.24 |
| image-generation-on-ffhq-256-x-256 | Efficient-vdVAE (Exposing) | Coverage: 0.54 Density: 1.04 FD: 514.16 FID: 34.88 Precision: 0.86 Recall: 0.14 |
| image-generation-on-ffhq-256-x-256 | StyleNAT (Exposing) | Coverage: 0.71 Density: 0.77 FD: 229.42 FID: 2.11 Precision: 0.79 Recall: 0.41 |
| image-generation-on-ffhq-256-x-256 | StyleSwin (Exposing) | Coverage: 0.64 Density: 0.71 FD: 303.21 FID: 2.89 Precision: 0.79 Recall: 0.28 |
| image-generation-on-ffhq-256-x-256 | StyleGAN-XL (Exposing) | Coverage: 0.63 Density: 0.68 FD: 240.07 FID: 2.26 Precision: 0.77 Recall: 0.43 |
| image-generation-on-ffhq-256-x-256 | Projected-GAN (Exposing) | Coverage: 0.30 Density: 0.31 FD: 589.20 FID: 4.29 Precision: 0.57 Recall: 0.07 |