
摘要
我们提出 Open-MAGVIT2,这是一个自回归图像生成模型系列,参数量范围从 3 亿(300M)到 15 亿(1.5B)。Open-MAGVIT2 项目实现了谷歌 MAGVIT-v2 分词器的开源复现,该分词器采用超大规模码本(即 2¹⁸ 个码字),在 ImageNet 256×256 图像数据集上实现了当前最优的重建性能(rFID 达 1.17)。此外,我们探索了该模型在标准自回归架构中的应用,并验证了其良好的可扩展性。为帮助自回归模型高效处理超大规模词汇表,我们采用非对称分词策略,将原始词汇表分解为两个不同规模的子词汇表,并进一步引入“下一子标记预测”机制,以增强子标记之间的交互,从而提升生成质量。我们已公开所有模型权重与源代码,旨在推动自回归视觉生成领域的创新与创造性发展。
代码仓库
tencentarc/seed-voken
官方
pytorch
GitHub 中提及
tencentarc/open-magvit2
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-256x256 | Open-MAGVIT2-XL | FID: 2.33 |
| image-reconstruction-on-imagenet | Open-Magvit2 (16x16) | FID: 1.17 PSNR: 21.90 |