
摘要
我们证明,扩散模型能够实现优于当前最先进生成模型的图像样本质量。在无条件图像生成任务中,我们通过一系列消融实验,发现了一种更优的网络架构,从而实现了这一目标。在条件图像生成任务中,我们进一步利用分类器引导(classifier guidance)方法提升了样本质量:这是一种简单且计算高效的策略,通过利用分类器的梯度,实现多样性与保真度之间的权衡。我们在 ImageNet 128×128 上取得了 2.97 的 FID 分数,256×256 上为 4.59,512×512 上为 7.72,即便每张样本仅需 25 次前向传播,也能达到与 BigGAN-deep 相当的性能,同时保持了对数据分布更全面的覆盖。此外,我们发现分类器引导与上采样扩散模型结合效果良好,进一步将 ImageNet 256×256 的 FID 降低至 3.94,512×512 的 FID 降低至 3.85。相关代码已开源,地址为:https://github.com/openai/guided-diffusion。
代码仓库
lucidrains/ddpm-proteins
pytorch
GitHub 中提及
forever208/adm-es
pytorch
GitHub 中提及
crosszamirski/guided-i2i
pytorch
GitHub 中提及
clu0/unet.cu
pytorch
GitHub 中提及
crowsonkb/guided-diffusion
pytorch
GitHub 中提及
LouisRouss/Diffusion-Based-Model-for-Colorization
pytorch
GitHub 中提及
facebookresearch/rcdm
pytorch
GitHub 中提及
alexmaols/elucd
pytorch
GitHub 中提及
jerryyann/dpi
pytorch
GitHub 中提及
openai/guided-diffusion
官方
pytorch
GitHub 中提及
filipbasara0/simple-diffusion
pytorch
GitHub 中提及
sangyun884/fast-ode
pytorch
GitHub 中提及
Janspiry/Palette-Image-to-Image-Diffusion-Models
pytorch
GitHub 中提及
ML-GSAI/EGSDE
pytorch
GitHub 中提及
afiaka87/clip-guided-diffusion
pytorch
GitHub 中提及
forever208/ddpm-ip
pytorch
GitHub 中提及
soobin-um/minority-guidance
pytorch
GitHub 中提及
deepfake-study/guided-diffusion
pytorch
GitHub 中提及
royg27/BIGRoC
pytorch
GitHub 中提及
jogo175/treediffusion
pytorch
GitHub 中提及
jychoi118/p2-weighting
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-image-generation-on-imagenet | ADM-G (classifier_scale=0.5) | FID: 2.97 |
| conditional-image-generation-on-imagenet-2 | ADM-G | FID: 4.59 Inception score: 186.7 |
| image-generation-on-imagenet-128x128 | ADM-G | FID: 2.97 |
| image-generation-on-imagenet-256x256 | ADM-G | FID: 4.59 |
| image-generation-on-imagenet-256x256 | ADM-G, ADM-U | FID: 3.94 |
| image-generation-on-imagenet-512x512 | ADM-G | FID: 7.72 Inception score: 172.71 |
| image-generation-on-imagenet-512x512 | ADM-G, ADM-U | FID: 3.85 Inception score: 221.72 |
| image-generation-on-imagenet-64x64 | ADM (dropout) | FID: 2.07 |
| image-generation-on-lsun-bedroom-256-x-256 | ADM (dropout) | FID: 1.90 |
| image-generation-on-lsun-bedroom-256-x-256 | ADM (dropout, DINOv2) | FD: 59.64 Precision: 0.85 Recall: 0.75 |
| image-generation-on-lsun-cat-256-x-256 | ADM (dropout) | FID: 5.57 |
| image-generation-on-lsun-horse-256-x-256 | ADM (dropout) | FID: 2.57 |