3 个月前

释放Transformer:基于离散吸收扩散的并行Token预测用于从向量量化码本快速生成高分辨率图像

释放Transformer:基于离散吸收扩散的并行Token预测用于从向量量化码本快速生成高分辨率图像

摘要

尽管扩散概率模型能够生成高质量的图像内容,但在生成高分辨率图像以及其高昂的计算开销方面仍存在关键限制。近期的向量量化(Vector-Quantized)图像模型虽在提升图像分辨率方面取得进展,但其生成过程因依赖于从先验分布中逐元素进行自回归采样而速度极慢,且为单向生成,难以高效扩展。与此相反,本文提出一种新型离散扩散概率模型先验,采用无约束的Transformer架构作为主干网络,实现了向量量化标记(Vector-Quantized tokens)的并行预测。在训练过程中,标记以与顺序无关的方式被随机掩码,Transformer模型学习恢复原始标记。这种向量量化标记的并行预测机制,使得在远低于传统方法的计算成本下,即可实现全局一致、高分辨率且多样化的无条件图像生成。在此框架下,我们能够生成超越原始训练数据集分辨率的图像,同时还能为每张图像提供概率似然估计(与生成对抗网络方法形成显著区别)。实验结果表明,本方法在密度(Density)指标上达到当前最优水平(LSUN Bedroom: 1.51;LSUN Churches: 1.12;FFHQ: 1.20),在覆盖度(Coverage)方面表现优异(LSUN Bedroom: 0.83;LSUN Churches: 0.73;FFHQ: 0.80),在FID指标上也具有竞争力(LSUN Bedroom: 3.64;LSUN Churches: 4.07;FFHQ: 6.11),同时在计算效率和训练数据集规模需求方面均展现出显著优势。

代码仓库

samb-t/x2ct-vqvae
pytorch
GitHub 中提及
samb-t/unleashing-transformers
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-ffhq-256-x-256Unleashing Transformers (DINOv2)
FD: 393.45
Precision: 0.76
Recall: 0.24
image-generation-on-ffhq-256-x-256Unleashing Transformers
FID: 6.11
image-generation-on-lsun-bedroom-256-x-256Unleashing Transformers
FID: 3.64
image-generation-on-lsun-bedroom-256-x-256Unleashing Transformers (DINOv2)
FD: 440.04
Precision: 0.78
Recall: 0.41
image-generation-on-lsun-churches-256-x-256Unleashing Transformers
FID: 4.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
释放Transformer:基于离散吸收扩散的并行Token预测用于从向量量化码本快速生成高分辨率图像 | 论文 | HyperAI超神经