3 个月前

将VQGAN的码本大小扩展至100,000,且利用率达到99%

将VQGAN的码本大小扩展至100,000,且利用率达到99%

摘要

在图像量化领域,以VQGAN为代表的模型将图像编码为从预定义大小的码本(codebook)中选取的离散标记(tokens)。近年来,随着LLAMA 3等模型的进展,研究发现显著扩大码本规模能够显著提升模型性能。然而,VQGAN及其衍生模型(如VQGAN-FC,即因子化码本,以及VQGAN-EMA)在扩展码本规模和提升码本利用率方面仍面临诸多挑战。例如,VQGAN-FC受限于最大码本规模为16,384,且在ImageNet数据集上的平均码本利用率通常低于12%。针对这一问题,本文提出一种新型图像量化模型——VQGAN-LC(Large Codebook),将码本规模扩展至100,000,并实现了超过99%的码本利用率。与以往方法逐个优化码本条目不同,我们的方法首先利用预训练视觉编码器提取100,000个特征作为初始码本,随后通过训练一个投影器(projector),使整个码本在分布上与编码器的特征分布对齐。实验结果表明,VQGAN-LC在多项任务中均显著优于现有方法,涵盖图像重建、图像分类、基于GPT的自回归图像生成,以及基于扩散模型和流模型的图像生成任务。相关代码与模型已开源,地址为:https://github.com/zh460045050/VQGAN-LC。

代码仓库

zh460045050/vqgan-lc
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-reconstruction-on-imagenetVQGAN-LC (16x16)
FID: 2.62
LPIPS: 0.120
PSNR: 23.80
SSIM: 0.589

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
将VQGAN的码本大小扩展至100,000,且利用率达到99% | 论文 | HyperAI超神经