3 个月前

NVAE:一种深度分层变分自编码器

NVAE:一种深度分层变分自编码器

摘要

归一化流(normalizing flows)、自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VAEs)以及深度能量模型(deep energy-based models)是当前深度生成学习中几类主要的基于似然(likelihood-based)的框架。在这些方法中,VAE 具有采样速度快、计算可 tractable(可处理)以及编码网络易于访问等优势。然而,目前其性能仍落后于归一化流和自回归模型等其他方法。尽管大多数关于 VAE 的研究集中于统计建模方面的挑战,本文则从一个正交方向出发,致力于为层次化 VAE 精心设计神经网络架构。为此,我们提出了一种新型深度层次化 VAE——Nouveau VAE(NVAE),该模型专为图像生成任务而设计,采用深度可分离卷积(depth-wise separable convolutions)与批量归一化(batch normalization)结构。NVAE 引入了正态分布的残差参数化(residual parameterization of Normal distributions),并通过谱正则化(spectral regularization)有效稳定了训练过程。实验结果表明,NVAE 在 MNIST、CIFAR-10、CelebA 64 和 CelebA HQ 等数据集上,作为非自回归类基于似然的模型,达到了当前最优的性能表现,并在 FFHQ 数据集上建立了强有力的基准。例如,在 CIFAR-10 上,NVAE 将此前的最优结果从 2.98 bit/dim 提升至 2.91 bit/dim;同时在 CelebA HQ 上生成了高质量的图像。据我们所知,NVAE 是首个成功应用于 256×256 像素自然图像生成的 VAE 模型。相关源代码已公开,地址为:https://github.com/NVlabs/NVAE。

代码仓库

Aiwizo/template-nvae
pytorch
GitHub 中提及
lagergren-lab/miselbo
pytorch
GitHub 中提及
tcl9876/visual-vae
jax
GitHub 中提及
NVlabs/NVAE
官方
pytorch
GitHub 中提及
NVlabs/LSGM
pytorch
GitHub 中提及
oadonca/ANVAE
tf
GitHub 中提及
SerezD/NVAE-from-scratch
pytorch
GitHub 中提及
etotheipi/nvae_tensorflow
tf
GitHub 中提及
chethankodase/alma
pytorch
GitHub 中提及
NVlabs/VAEBM
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-celeba-256x256NVAE w/ flow
bpd: 0.70
image-generation-on-cifar-10NVAE w/ flow
FID: 32.53
image-generation-on-ffhq-256-x-256NVAE w/ flow
bits/dimension: 0.69
image-generation-on-imagenet-32x32NVAE w/ flow
bpd: 3.92

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NVAE:一种深度分层变分自编码器 | 论文 | HyperAI超神经