3 个月前

基于残差量化机制的自回归图像生成

基于残差量化机制的自回归图像生成

摘要

在高分辨率图像的自回归(AR)建模中,向量量化(VQ)将图像表示为一系列离散代码。对于AR模型而言,较短的代码序列长度至关重要,这有助于降低其计算成本,从而有效建模代码之间的长程依赖关系。然而,我们提出,以往的向量量化方法难以在保持率-失真权衡最优的前提下,同时实现代码序列的压缩与高质量图像的生成。为此,本文提出一种两阶段框架,由残差量化变分自编码器(RQ-VAE)与RQ-Transformer组成,以高效生成高分辨率图像。在固定码本大小的前提下,RQ-VAE能够精确逼近图像的特征图,并将其表示为离散代码的堆叠映射。随后,RQ-Transformer通过预测下一个代码堆叠来建模下一位置的量化特征向量。得益于RQ-VAE的高精度逼近能力,一幅256×256的图像可被压缩为8×8分辨率的特征图表示,从而显著降低RQ-Transformer的计算开销。实验结果表明,该框架在无条件与条件图像生成的多个基准测试中均优于现有的自回归模型。此外,与以往的AR模型相比,本方法在生成高质量图像时具备显著更快的采样速度。

代码仓库

ai-forever/movqgan
pytorch
GitHub 中提及
kakaobrain/rq-vae-transformer
官方
pytorch
GitHub 中提及
lucidrains/magvit2-pytorch
pytorch
GitHub 中提及
archinetai/bitcodes-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-imagenet-256x256RQ-Transformer
FID: 3.83
image-reconstruction-on-imagenetRQ-VAE (8x8x16)
FID: 1.83
text-to-image-generation-on-conceptualRQ-Transformer
FID: 12.33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于残差量化机制的自回归图像生成 | 论文 | HyperAI超神经