3 个月前

基于熵驱动的条件扩散生成采样与训练方案

基于熵驱动的条件扩散生成采样与训练方案

摘要

去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)通过引入一个独立的噪声感知分类器,在去噪过程的每一步提供条件梯度引导,从而实现从先验噪声到真实数据的灵活条件图像生成。然而,由于分类器仅依赖高层结构即可轻易区分尚未完全生成的图像,导致这类基于类别的梯度信息在早期便迅速衰减,进而引发条件生成过程退化为无条件生成过程的问题。为解决该问题,本文从两个角度提出两种简单而有效的方法。在采样阶段,我们引入预测分布的熵作为梯度消失程度的度量,并提出一种基于熵感知的缩放策略,以自适应地恢复条件语义引导。在训练阶段,我们设计了基于熵感知的优化目标,用以缓解分类器对噪声数据的过度自信预测问题。在 ImageNet-1000 256×256 数据集上,结合所提出的采样策略与训练后的分类器,预训练的条件与无条件 DDPM 模型分别实现了 10.89%(FID 从 4.59 降至 4.09)和 43.5%(FID 从 12.00 降至 6.78)的性能提升。相关代码已开源,地址为:https://github.com/ZGCTroy/ED-DPM。

代码仓库

ZGCTroy/ED-DPM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
conditional-image-generation-on-imagenetADM-G + EDS (ED-DPM, classifier_scale=0.4)
FID: 2.63
Inception score: 159.72
conditional-image-generation-on-imagenetADM-G + EDS + ECT (ED-DPM, classifier_scale=0.6)
FID: 2.68
Inception score: 169.24
conditional-image-generation-on-imagenet-2ADM-G + EDS + ECT (ED-DPM, classifier_scale=1.0)
FID: 4.09
Inception score: 221.57
image-generation-on-imagenet-256x256ADM-G + EDS (ED-DPM, classifier_scale=0.75)
FID: 3.96
image-generation-on-imagenet-256x256ADM-G + EDS + ECT (ED-DPM, classifier_scale=1.0)
FID: 4.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于熵驱动的条件扩散生成采样与训练方案 | 论文 | HyperAI超神经