3 个月前

高效-VDVAE:少即是多

高效-VDVAE:少即是多

摘要

近年来,分层变分自编码器(Hierarchical VAEs)已成为最大似然估计的一种可靠选择。然而,其固有的训练不稳定性以及高昂的计算资源需求,严重制约了该领域的研究进展。本文针对极深变分自编码器(Very Deep VAE, VDVAE)提出一系列简单而有效的改进,使模型收敛速度提升最高达2.6倍,内存占用降低最高达20倍,同时显著增强了训练过程中的稳定性。尽管进行了这些优化,我们的模型在所评估的7个常用图像数据集上,负对数似然(negative log-likelihood)性能仍达到或优于当前最先进的模型。此外,我们指出,使用5比特量化基准来衡量分层VAE的性能存在明显偏差,因此不建议将其作为评估标准。我们通过实证研究进一步表明,分层VAE的潜在空间中仅约3%的维度即可充分编码图像的大部分信息,且不会造成性能损失。这一发现为在下游任务中高效利用分层VAE的潜在空间开辟了新途径。相关源代码与训练模型已公开发布于:https://github.com/Rayhane-mamah/Efficient-VDVAE。

代码仓库

Rayhane-mamah/Efficient-VDVAE
官方
jax
GitHub 中提及

基准测试

基准方法指标
image-generation-on-binarized-mnistEfficient-VDVAE
nats: 79.09
image-generation-on-celeba-256x256Efficient-VDVAE
bpd: 0.51
bpd (8-bits): 1.35
image-generation-on-celeba-64x64Efficient-VDVAE
bits/dimension: 1.83
image-generation-on-celeba-hq-1024x1024Efficient-VDVAE
bits/dimension: 1.01
image-generation-on-ffhq-1024-x-1024Efficient-VDVAE
bits/dimension: 2.30
image-generation-on-ffhq-256-x-256Efficient-VDVAE
FID: 34.88
bits/dimension: 0.53
image-generation-on-ffhq-256-x-256Efficient-VDVAE (DINOv2)
FD: 514.16
Precision: 0.86
Recall: 0.14
image-generation-on-imagenet-64x64Efficient-VDVAE
Bits per dim: 3.30 (different downsampling)

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高效-VDVAE:少即是多 | 论文 | HyperAI超神经