
摘要
尽管扩散概率模型能够生成高质量的图像内容,但在生成高分辨率图像以及其高昂的计算开销方面仍存在关键限制。近期的向量量化(Vector-Quantized)图像模型虽在提升图像分辨率方面取得进展,但其生成过程因依赖于从先验分布中逐元素进行自回归采样而速度极慢,且为单向生成,难以高效扩展。与此相反,本文提出一种新型离散扩散概率模型先验,采用无约束的Transformer架构作为主干网络,实现了向量量化标记(Vector-Quantized tokens)的并行预测。在训练过程中,标记以与顺序无关的方式被随机掩码,Transformer模型学习恢复原始标记。这种向量量化标记的并行预测机制,使得在远低于传统方法的计算成本下,即可实现全局一致、高分辨率且多样化的无条件图像生成。在此框架下,我们能够生成超越原始训练数据集分辨率的图像,同时还能为每张图像提供概率似然估计(与生成对抗网络方法形成显著区别)。实验结果表明,本方法在密度(Density)指标上达到当前最优水平(LSUN Bedroom: 1.51;LSUN Churches: 1.12;FFHQ: 1.20),在覆盖度(Coverage)方面表现优异(LSUN Bedroom: 0.83;LSUN Churches: 0.73;FFHQ: 0.80),在FID指标上也具有竞争力(LSUN Bedroom: 3.64;LSUN Churches: 4.07;FFHQ: 6.11),同时在计算效率和训练数据集规模需求方面均展现出显著优势。
代码仓库
samb-t/x2ct-vqvae
pytorch
GitHub 中提及
Arktis2022/mini-vq-discrete-absorbing-diffusion
pytorch
GitHub 中提及
samb-t/unleashing-transformers
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-ffhq-256-x-256 | Unleashing Transformers (DINOv2) | FD: 393.45 Precision: 0.76 Recall: 0.24 |
| image-generation-on-ffhq-256-x-256 | Unleashing Transformers | FID: 6.11 |
| image-generation-on-lsun-bedroom-256-x-256 | Unleashing Transformers | FID: 3.64 |
| image-generation-on-lsun-bedroom-256-x-256 | Unleashing Transformers (DINOv2) | FD: 440.04 Precision: 0.78 Recall: 0.41 |
| image-generation-on-lsun-churches-256-x-256 | Unleashing Transformers | FID: 4.07 |