3 个月前

用于文本到图像合成的向量量化扩散模型

用于文本到图像合成的向量量化扩散模型

摘要

我们提出了一种用于文本到图像生成的向量量化扩散模型(Vector Quantized Diffusion, VQ-Diffusion)。该方法基于向量量化变分自编码器(VQ-VAE),其潜在空间采用近期提出的去噪扩散概率模型(Denoising Diffusion Probabilistic Model, DDPM)的条件变体进行建模。实验表明,该潜在空间方法在文本到图像生成任务中表现出色,不仅克服了现有方法中存在的单向性偏差问题,还能够引入“掩码与替换”扩散策略,有效避免误差累积这一严重问题。与参数量相近的传统自回归(Autoregressive, AR)模型相比,VQ-Diffusion 在生成质量上显著优于后者。相较于以往基于生成对抗网络(GAN)的文本到图像方法,VQ-Diffusion 能够处理更为复杂的场景,并在图像合成质量上实现大幅提升。此外,我们证明通过重参数化技术,可显著提高图像生成的计算效率。传统自回归方法的文本到图像生成时间随输出图像分辨率呈线性增长,即使在常规图像尺寸下也极为耗时。而 VQ-Diffusion 在保持高质量生成的同时,实现了更优的质量与速度权衡。实验结果表明,采用重参数化技术后,VQ-Diffusion 模型的生成速度比传统自回归方法快约十五倍,同时图像质量更优。

代码仓库

microsoft/vq-diffusion
pytorch
GitHub 中提及
cientgu/vq-diffusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-image-generation-on-cocoVQ-Diffusion-F
FID: 13.86
text-to-image-generation-on-cocoVQ-Diffusion-B
FID: 19.75
text-to-image-generation-on-cubVQ-Diffusion-F
FID: 10.32
text-to-image-generation-on-cubVQ-Diffusion-S
FID: 12.97
text-to-image-generation-on-cubVQ-Diffusion-B
FID: 11.94
text-to-image-generation-on-oxford-102VQ-Diffusion-S
FID: 14.95
text-to-image-generation-on-oxford-102VQ-Diffusion-B
FID: 14.88
text-to-image-generation-on-oxford-102VQ-Diffusion-F
FID: 14.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于文本到图像合成的向量量化扩散模型 | 论文 | HyperAI超神经