3 个月前

Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目

Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目

摘要

我们提出 Open-MAGVIT2,这是一个自回归图像生成模型系列,参数量范围从 3 亿(300M)到 15 亿(1.5B)。Open-MAGVIT2 项目实现了谷歌 MAGVIT-v2 分词器的开源复现,该分词器采用超大规模码本(即 2¹⁸ 个码字),在 ImageNet 256×256 图像数据集上实现了当前最优的重建性能(rFID 达 1.17)。此外,我们探索了该模型在标准自回归架构中的应用,并验证了其良好的可扩展性。为帮助自回归模型高效处理超大规模词汇表,我们采用非对称分词策略,将原始词汇表分解为两个不同规模的子词汇表,并进一步引入“下一子标记预测”机制,以增强子标记之间的交互,从而提升生成质量。我们已公开所有模型权重与源代码,旨在推动自回归视觉生成领域的创新与创造性发展。

代码仓库

tencentarc/seed-voken
官方
pytorch
GitHub 中提及
tencentarc/open-magvit2
pytorch
GitHub 中提及

基准测试

基准方法指标
image-generation-on-imagenet-256x256Open-MAGVIT2-XL
FID: 2.33
image-reconstruction-on-imagenetOpen-Magvit2 (16x16)
FID: 1.17
PSNR: 21.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Open-MAGVIT2:一项迈向民主化自回归视觉生成的开源项目 | 论文 | HyperAI超神经