3 个月前

一致性模型

一致性模型

摘要

扩散模型在图像、音频和视频生成领域取得了显著进展,但其依赖迭代采样过程,导致生成速度较慢。为克服这一局限,我们提出了一类新型模型——一致性模型(consistency models),该模型通过直接将噪声映射到数据空间,生成高质量样本。这类模型从设计上支持快速的一步生成,同时仍保留多步采样的能力,从而可在计算资源与样本质量之间灵活权衡。此外,一致性模型无需针对特定任务进行显式训练,即可实现零样本数据编辑,例如图像修复(inpainting)、着色(colorization)和超分辨率(super-resolution)等。一致性模型的训练方式有两种:既可以通过对预训练的扩散模型进行知识蒸馏来实现,也可作为独立的生成模型直接训练。通过大量实验验证,我们发现该模型在一步及少步采样场景下,显著优于现有的扩散模型蒸馏方法,在CIFAR-10数据集上实现新的最优FID分数3.55,在ImageNet 64×64数据集上达到6.20。当作为独立生成模型训练时,一致性模型成为一类全新的生成模型,其性能在标准基准测试(如CIFAR-10、ImageNet 64×64和LSUN 256×256)上超越了现有的一步生成、非对抗性生成模型,展现出强大的生成能力与应用潜力。

代码仓库

cloneofsimo/consistency_models
pytorch
GitHub 中提及
sainzerjj/sferd
pytorch
GitHub 中提及
sreerajr000/consistency-models
pytorch
GitHub 中提及
openai/consistencydecoder
pytorch
GitHub 中提及
locuslab/ect
pytorch
GitHub 中提及
jabir-zheng/TCD
pytorch
GitHub 中提及
openai/consistency_models
官方
pytorch
GitHub 中提及
Kinyugo/consistency_models
pytorch
GitHub 中提及
junhsss/consistency-models
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-cifar-10CT (Direct Generation, NFE=2)
FID: 5.83
image-generation-on-imagenet-64x64CD (Diffusion + Distillation, NFE=2)
FID: 4.70
NFE: 2
image-generation-on-imagenet-64x64CT (Direct Generation, NFE=1)
FID: 13.0
NFE: 1
image-generation-on-imagenet-64x64CT (Direct Generation, NFE=2)
FID: 11.1
NFE: 2
image-generation-on-imagenet-64x64CD (Diffusion + Distillation, NFE=1)
FID: 6.20
NFE: 1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一致性模型 | 论文 | HyperAI超神经