
摘要
通过将图像生成过程分解为一系列去噪自编码器的顺序应用,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,这些模型的公式化允许引入一种引导机制来控制图像生成过程,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,强大的扩散模型的优化往往需要消耗数百个GPU天数,且由于顺序评估的原因,推理成本较高。为了在有限的计算资源上进行扩散模型训练同时保留其质量和灵活性,我们将其应用于强大的预训练自编码器的潜在空间中。与以往的研究不同,对这种表示进行扩散模型训练首次达到了复杂度降低与细节保留之间的近乎最优平衡点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意力层,我们将扩散模型转变为强大的、灵活的一般条件输入(如文本或边界框)生成器,并使得高分辨率合成以卷积方式成为可能。我们的潜在扩散模型(LDMs)在图像修复方面达到了新的技术水平,并在包括无条件图像生成、语义场景合成和超分辨率在内的各种任务中表现出高度竞争力,同时相比基于像素的DMs显著降低了计算需求。代码可在 https://github.com/CompVis/latent-diffusion 获取。
代码仓库
joanrod/ocr-vqgan
pytorch
GitHub 中提及
compvis/stable-diffusion
pytorch
GitHub 中提及
lorenzo-stacchio/Stable-Diffusion-Inpaint
pytorch
GitHub 中提及
olaviinha/NeuralImageSuperResolution
GitHub 中提及
benearnthof/fm_boosting
pytorch
GitHub 中提及
ankanbhunia/Handwriting-Transformers
pytorch
GitHub 中提及
vainf/diff-pruning
jax
GitHub 中提及
stability-ai/stablediffusion
pytorch
GitHub 中提及
deforum/stable-diffusion
pytorch
GitHub 中提及
mayuelala/followyourpose
pytorch
GitHub 中提及
artem-gorodetskii/wikiart-latent-diffusion
pytorch
GitHub 中提及
showlab/loveu-tgve-2023
pytorch
GitHub 中提及
compvis/fm-boosting
pytorch
GitHub 中提及
baaivision/vid2vid-zero
pytorch
GitHub 中提及
joh-fischer/PlantLDM
pytorch
GitHub 中提及
geekyutao/inpaint-anything
pytorch
GitHub 中提及
SnailDev/github-hot-hub
pytorch
GitHub 中提及
spengliang/smoothvideo
pytorch
GitHub 中提及
camilocarvajalreyes/sfws-stable-diffusion
pytorch
GitHub 中提及
fhshen2022/prunerepaint
pytorch
GitHub 中提及
will-wang19/Image-Edit-with-Mask-generated-by-Stable-Diffusion
pytorch
GitHub 中提及
lilijiangg/autodiffusion
pytorch
GitHub 中提及
glouppe/info8010-deep-learning
pytorch
GitHub 中提及
showlab/Tune-A-Video
pytorch
GitHub 中提及
mindspore-lab/mindone
mindspore
clarken92/vfm
pytorch
GitHub 中提及
quereste/implicit-deepfake
pytorch
GitHub 中提及
zgctroy/layoutdiffusion
pytorch
GitHub 中提及
joanrod/figure-diffusion
pytorch
GitHub 中提及
lonnyzhang423/github-hot-hub
pytorch
GitHub 中提及
yangling0818/contextdiff
jax
GitHub 中提及
microsoft/visual-chatgpt
GitHub 中提及
Francis-Rings/MotionFollower
pytorch
GitHub 中提及
Francis-Rings/MotionEditor
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-celeba-hq-256x256 | LDM-4 | FID: 5.11 |
| image-generation-on-imagenet-512x512 | Latent Diffusion (LDM-4-G) | FID: 3.60 Inception score: 247.67 |
| layout-to-image-generation-on-coco-stuff-4 | LDM-4 (200steps) | FID: 40.96 |
| layout-to-image-generation-on-coco-stuff-4 | LDM-8 (100steps) | FID: 42.06 |
| layout-to-image-generation-on-layoutbench | LDM | AP: 9.9 |
| text-to-image-generation-on-coco | Latent Diffusion (LDM-KL-8-G) | FID: 12.63 |
| text-to-image-generation-on-conceptual | LDM-4 | FID: 17.01 |