
摘要
去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)通过引入一个独立的噪声感知分类器,在去噪过程的每一步提供条件梯度引导,从而实现从先验噪声到真实数据的灵活条件图像生成。然而,由于分类器仅依赖高层结构即可轻易区分尚未完全生成的图像,导致这类基于类别的梯度信息在早期便迅速衰减,进而引发条件生成过程退化为无条件生成过程的问题。为解决该问题,本文从两个角度提出两种简单而有效的方法。在采样阶段,我们引入预测分布的熵作为梯度消失程度的度量,并提出一种基于熵感知的缩放策略,以自适应地恢复条件语义引导。在训练阶段,我们设计了基于熵感知的优化目标,用以缓解分类器对噪声数据的过度自信预测问题。在 ImageNet-1000 256×256 数据集上,结合所提出的采样策略与训练后的分类器,预训练的条件与无条件 DDPM 模型分别实现了 10.89%(FID 从 4.59 降至 4.09)和 43.5%(FID 从 12.00 降至 6.78)的性能提升。相关代码已开源,地址为:https://github.com/ZGCTroy/ED-DPM。
代码仓库
ZGCTroy/ED-DPM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| conditional-image-generation-on-imagenet | ADM-G + EDS (ED-DPM, classifier_scale=0.4) | FID: 2.63 Inception score: 159.72 |
| conditional-image-generation-on-imagenet | ADM-G + EDS + ECT (ED-DPM, classifier_scale=0.6) | FID: 2.68 Inception score: 169.24 |
| conditional-image-generation-on-imagenet-2 | ADM-G + EDS + ECT (ED-DPM, classifier_scale=1.0) | FID: 4.09 Inception score: 221.57 |
| image-generation-on-imagenet-256x256 | ADM-G + EDS (ED-DPM, classifier_scale=0.75) | FID: 3.96 |
| image-generation-on-imagenet-256x256 | ADM-G + EDS + ECT (ED-DPM, classifier_scale=1.0) | FID: 4.09 |