3 个月前

基于索引反向传播量化的大规模图像标记化

基于索引反向传播量化的大规模图像标记化

摘要

现有的向量量化(Vector Quantization, VQ)方法在可扩展性方面面临挑战,这主要归因于训练过程中代码本(codebook)仅进行局部更新所带来的不稳定性。随着部分代码未被激活,代码本中的非激活代码与视觉特征之间的分布差距逐渐扩大,导致代码本容易发生坍缩(collapse)。为解决这一问题,我们提出了一种新型向量量化方法——索引反向传播量化(Index Backpropagation Quantization, IBQ),该方法实现了代码本嵌入与视觉编码器的联合优化。通过在编码特征与代码本之间的独热(one-hot)类别分布上应用直通估计器(straight-through estimator),所有代码均具备可微性,并与视觉编码器保持一致的潜在空间表示。IBQ 支持视觉标记化器的可扩展训练,首次实现了大规模代码本($2^{18}$)、高维(256维)且高利用率的向量量化结构。在标准 ImageNet 基准测试上的实验表明,IBQ 具有出色的可扩展性与性能优势,在图像重建任务以及自回归视觉生成应用中均取得了具有竞争力的结果。相关代码与模型已开源,地址为:https://github.com/TencentARC/SEED-Voken。

代码仓库

tencentarc/seed-voken
官方
pytorch
GitHub 中提及
tencentarc/open-magvit2
pytorch
GitHub 中提及

基准测试

基准方法指标
image-reconstruction-on-imagenetIBQ (16x16)
FID: 1.00
LPIPS: 0.2030

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于索引反向传播量化的大规模图像标记化 | 论文 | HyperAI超神经