
摘要
目前,直接在高分辨率图像的像素空间中应用扩散模型存在较大困难。因此,现有方法通常转而采用低维潜在空间中的扩散(即潜在扩散模型),或采用多级超分辨率生成结构(称为级联生成)。然而,这些方法会为扩散框架引入额外的复杂性。本文旨在提升高分辨率图像的去噪扩散模型性能,同时尽可能保持模型结构的简洁性。研究的核心问题是:如何在高分辨率图像上训练标准的去噪扩散模型,仍能实现与上述替代方法相媲美的生成效果?本文得出四个主要结论:1)针对高分辨率图像,需对噪声调度(noise schedule)进行相应调整;2)仅需对网络架构中的特定部分进行缩放即可取得良好效果;3)在架构的特定位置引入丢弃(dropout)机制可有效提升性能;4)下采样是一种有效避免生成高分辨率特征图的策略。通过结合这些简单而高效的技术手段,本文在ImageNet数据集上实现了无需采样优化器(sampling modifiers)的扩散模型图像生成任务中的最先进性能。
代码仓库
fashn-AI/tryondiffusion
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-image-generation-on-imagenet | simple diffusion (U-ViT, L) | FID: 3.23 Inception score: 171.9 |
| conditional-image-generation-on-imagenet | simple diffusion (U-Net) | FID: 2.88 Inception score: 137.3 |
| image-generation-on-imagenet-256x256 | simple diffusion (U-Net) | FID: 3.71 |
| image-generation-on-imagenet-256x256 | simple diffusion (U-ViT, L) | FID: 3.75 |
| image-generation-on-imagenet-512x512 | simple diffusion (U-Net) | FID: 4.28 Inception score: 171 |
| image-generation-on-imagenet-512x512 | simple diffusion (U-ViT, L) | FID: 4.53 Inception score: 205.3 |
| text-to-image-generation-on-coco | simple diffusion (U-ViT) | FID: 8.3 |