3 个月前

DiffuseVAE:从低维隐空间实现高效、可控且高保真的生成

DiffuseVAE:从低维隐空间实现高效、可控且高保真的生成

摘要

扩散概率模型在多个具有挑战性的图像合成基准测试中已展现出当前最优的生成效果,但其仍存在低维可解释潜在空间缺失以及生成速度较慢的问题。相比之下,标准变分自编码器(VAEs)通常具备低维潜在空间,但生成样本的质量较差。为此,我们提出了一种名为DiffuseVAE的新颖生成框架,该框架将变分自编码器嵌入扩散模型的架构中,并利用这一结构设计出新型的条件参数化方式用于扩散模型。实验表明,所提出的模型能够为扩散模型引入由VAE推断出的低维潜在代码,该代码可用于后续任务,如可控图像合成。此外,该方法在无需显式优化的前提下,显著改善了标准无条件DDPM/DDIM模型在生成速度与质量之间的权衡关系(例如,在CelebA-HQ-128基准上,使用10步反向过程时,FID得分由标准DDIM的34.36提升至16.47)。同时,该模型在CIFAR-10和CelebA-64等标准图像合成基准上的生成质量达到当前最先进水平,且优于大多数基于VAE的现有方法。最后,我们验证了所提方法对条件信号中不同类型噪声具有内在的泛化能力。为确保结果可复现,我们的源代码已公开发布于:https://github.com/kpandey008/DiffuseVAE。

代码仓库

JoGo175/diffuse-treevae
pytorch
GitHub 中提及
kpandey008/DiffuseVAE
官方
jax
GitHub 中提及
jogo175/treediffusion
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-celeba-64x64DiffuseVAE
FID: 3.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DiffuseVAE:从低维隐空间实现高效、可控且高保真的生成 | 论文 | HyperAI超神经