
摘要
扩散模型在图像、音频和视频生成领域取得了显著进展,但其依赖迭代采样过程,导致生成速度较慢。为克服这一局限,我们提出了一类新型模型——一致性模型(consistency models),该模型通过直接将噪声映射到数据空间,生成高质量样本。这类模型从设计上支持快速的一步生成,同时仍保留多步采样的能力,从而可在计算资源与样本质量之间灵活权衡。此外,一致性模型无需针对特定任务进行显式训练,即可实现零样本数据编辑,例如图像修复(inpainting)、着色(colorization)和超分辨率(super-resolution)等。一致性模型的训练方式有两种:既可以通过对预训练的扩散模型进行知识蒸馏来实现,也可作为独立的生成模型直接训练。通过大量实验验证,我们发现该模型在一步及少步采样场景下,显著优于现有的扩散模型蒸馏方法,在CIFAR-10数据集上实现新的最优FID分数3.55,在ImageNet 64×64数据集上达到6.20。当作为独立生成模型训练时,一致性模型成为一类全新的生成模型,其性能在标准基准测试(如CIFAR-10、ImageNet 64×64和LSUN 256×256)上超越了现有的一步生成、非对抗性生成模型,展现出强大的生成能力与应用潜力。
代码仓库
cloneofsimo/consistency_models
pytorch
GitHub 中提及
Mosasaur5526/BCM-iCT-torch
pytorch
sainzerjj/sferd
pytorch
GitHub 中提及
sreerajr000/consistency-models
pytorch
GitHub 中提及
openai/consistencydecoder
pytorch
GitHub 中提及
locuslab/ect
pytorch
GitHub 中提及
jabir-zheng/TCD
pytorch
GitHub 中提及
openai/consistency_models
官方
pytorch
GitHub 中提及
openai/consistency_models_cifar10
jax
GitHub 中提及
G-U-N/Awesome-Consistency-Models
GitHub 中提及
Kinyugo/consistency_models
pytorch
GitHub 中提及
junhsss/consistency-models
pytorch
GitHub 中提及
p-hss/consistency-climate-downscaling
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-cifar-10 | CT (Direct Generation, NFE=2) | FID: 5.83 |
| image-generation-on-imagenet-64x64 | CD (Diffusion + Distillation, NFE=2) | FID: 4.70 NFE: 2 |
| image-generation-on-imagenet-64x64 | CT (Direct Generation, NFE=1) | FID: 13.0 NFE: 1 |
| image-generation-on-imagenet-64x64 | CT (Direct Generation, NFE=2) | FID: 11.1 NFE: 2 |
| image-generation-on-imagenet-64x64 | CD (Diffusion + Distillation, NFE=1) | FID: 6.20 NFE: 1 |