3 个月前

非常深的VAE泛化了自回归模型,并在图像任务上能够超越它们

非常深的VAE泛化了自回归模型,并在图像任务上能够超越它们

摘要

我们提出了一种分层变分自编码器(hierarchical VAE),首次在所有自然图像基准测试中实现了比PixelCNN更高的对数似然性能,同时生成样本的速度显著更快。我们首先观察到,理论上,当变分自编码器(VAE)足够深时,其不仅能表示自回归模型,还能实现比自回归模型更快、更优的生成效果(若此类模型存在)。尽管如此,历史上自回归模型在对数似然性能上始终优于VAE。为检验“深度不足”是否是导致这一差距的原因,我们对VAE进行了扩展,使其达到此前未充分探索的更大随机深度,并在CIFAR-10、ImageNet和FFHQ数据集上进行了评估。与PixelCNN相比,这些极深的VAE模型在对数似然上表现更优,参数量更少,生成样本的速度快数千倍,并且更易于应用于高分辨率图像。定性分析表明,这主要归因于VAE能够学习到高效且分层的视觉表征。我们已在 https://github.com/openai/vdvae 开源了相关代码与模型。

代码仓库

tcl9876/visual-vae
jax
GitHub 中提及
ericl122333/latent-vae
pytorch
GitHub 中提及
openai/vdvae
官方
pytorch
GitHub 中提及
j-towns/vdvae-jax
pytorch
GitHub 中提及
plai-group/ipa
pytorch
GitHub 中提及
vvvm23/vdvae
pytorch
GitHub 中提及
lupalab/posterior-matching
jax
GitHub 中提及

基准测试

基准方法指标
image-generation-on-ffhq-1024-x-1024Very Deep VAE
bits/dimension: 2.42
image-generation-on-ffhq-256-x-256Very Deep VAE
bits/dimension: 0.61
image-generation-on-imagenet-32x32Very Deep VAE
bpd: 3.8
image-generation-on-imagenet-64x64Very Deep VAE
Bits per dim: 3.52

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
非常深的VAE泛化了自回归模型,并在图像任务上能够超越它们 | 论文 | HyperAI超神经