3 个月前

揭示生成模型评估指标的缺陷及其对扩散模型的不公平对待

揭示生成模型评估指标的缺陷及其对扩散模型的不公平对待

摘要

我们系统性地研究了涵盖语义多样性图像数据集的多种生成模型,旨在深入理解并改进用于评估这些模型的特征提取器与评价指标。基于心理物理学的最佳实践,我们开展了迄今为止规模最大的生成模型评估实验,通过人类感知实验测量生成样本的图像真实感,结果发现:目前任何现有指标均未与人类评价形成强相关性。在与17种现代评估指标(用于衡量生成模型的整体性能、保真度、多样性、稀有性及记忆现象)的对比中,我们发现:尽管人类评估认为扩散模型在感知真实感方面处于最先进水平,但这一表现并未在FID等常用指标中得到体现。该差异并非由生成样本的多样性引起,但部分原因在于对Inception-V3的过度依赖。为解决上述缺陷,我们进一步研究了替代性的自监督特征提取器,发现单个网络所编码的语义信息强烈依赖于其训练过程,并证实DINOv2-ViT-L/14能够实现对生成模型更为丰富的评估能力。随后,我们深入探究了数据记忆现象,发现生成模型在CIFAR10等简单小型数据集上确实会记忆训练样本,但在ImageNet等更复杂的大型数据集上则未必如此。然而,我们的实验表明,当前主流评估指标无法有效检测记忆现象:文献中现有指标均无法将记忆现象与其他现象(如欠拟合或模式坍缩)区分开来。为推动生成模型及其评估方法的进一步发展,我们已将所有生成图像数据集、人类评估数据,以及一个模块化工具库公开发布,该工具库支持基于9种不同编码器计算17种常用评估指标。相关资源可访问:https://github.com/layer6ai-labs/dgm-eval。

代码仓库

gmum/PALATE
jax
GitHub 中提及
layer6ai-labs/dgm-eval
官方
pytorch
GitHub 中提及
layer6ai-labs/dgm_manifold_survey
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-ffhq-256-x-256StyleGAN2-ada (Exposing)
Coverage: 0.39
Density: 0.36
FD: 514.78
FID: 5.30
Precision: 0.59
Recall: 0.06
image-generation-on-ffhq-256-x-256LDM (Exposing)
Coverage: 0.74
Density: 0.83
FD: 226.72
FID: 8.11
Precision: 0.81
Recall: 0.44
image-generation-on-ffhq-256-x-256InsGen (Exposing)
Coverage: 0.51
FD: 436.26
FID: 3.46
Precision: 0.64
Recall: 0.13
image-generation-on-ffhq-256-x-256Unleash-Trans (Exposing)
Coverage: 0.53
Density: 0.61
FD: 393.45
FID: 9.02
Precision: 0.76
Recall: 0.24
image-generation-on-ffhq-256-x-256Efficient-vdVAE (Exposing)
Coverage: 0.54
Density: 1.04
FD: 514.16
FID: 34.88
Precision: 0.86
Recall: 0.14
image-generation-on-ffhq-256-x-256StyleNAT (Exposing)
Coverage: 0.71
Density: 0.77
FD: 229.42
FID: 2.11
Precision: 0.79
Recall: 0.41
image-generation-on-ffhq-256-x-256StyleSwin (Exposing)
Coverage: 0.64
Density: 0.71
FD: 303.21
FID: 2.89
Precision: 0.79
Recall: 0.28
image-generation-on-ffhq-256-x-256StyleGAN-XL (Exposing)
Coverage: 0.63
Density: 0.68
FD: 240.07
FID: 2.26
Precision: 0.77
Recall: 0.43
image-generation-on-ffhq-256-x-256Projected-GAN (Exposing)
Coverage: 0.30
Density: 0.31
FD: 589.20
FID: 4.29
Precision: 0.57
Recall: 0.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
揭示生成模型评估指标的缺陷及其对扩散模型的不公平对待 | 论文 | HyperAI超神经