
摘要
基于扩散的生成模型在视觉上呈现出令人印象深刻的合成能力,但它们是否也能成为优秀的基于似然(likelihood-based)的模型?我们对此给出了肯定的回答,并提出了一类新型的基于扩散的生成模型,在标准图像密度估计基准上取得了当前最优的似然性能。与现有的其他扩散模型不同,我们的方法能够高效地将噪声调度(noise schedule)与模型其余部分联合优化。我们发现,变分下界(Variational Lower Bound, VLB)在扩散数据的信噪比(signal-to-noise ratio, SNR)表达下可简化为一个极为简洁的形式,从而深化了我们对该模型类的理论理解。基于这一洞察,我们证明了文献中若干模型之间的等价性。此外,我们进一步揭示:连续时间下的VLB仅在噪声调度两端的信噪比处依赖于调度本身,其余部分保持不变。这一性质使我们能够学习一个最小化VLB估计器方差的噪声调度,从而显著加速优化过程。结合上述理论进展与网络架构的改进,我们在图像密度估计基准上实现了当前最优的似然性能,超越了多年来长期主导该领域的自回归模型,且优化速度通常显著更快。此外,我们还展示了如何将该模型应用于bits-back压缩方案,并实现了接近理论最优的无损压缩率。相关代码已开源,地址为:https://github.com/google-research/vdm。
代码仓库
addtt/variational-diffusion-models
pytorch
GitHub 中提及
google-research/vdm
官方
jax
GitHub 中提及
martenlienen/bsi
jax
GitHub 中提及
revsic/jax-variational-diffwave
jax
GitHub 中提及
yoyololicon/variational-diffwave
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| density-estimation-on-cifar-10 | VDM | NLL (bits/dim): 2.65 |
| density-estimation-on-imagenet-32x32-1 | VDM | NLL (bits/dim): 3.72 |
| image-generation-on-imagenet-32x32 | VDM | bpd: 3.72 |
| image-generation-on-imagenet-64x64 | VDM | Bits per dim: 3.40 |