Lijun YuJosé LezamaNitesh B. GundavarapuLuca VersariKihyuk SohnDavid MinnenYong ChengVighnesh BirodkarAgrim GuptaXiuye GuAlexander G. HauptmannBoqing GongMing-Hsuan YangIrfan EssaDavid A. RossLu Jiang

摘要
尽管大型语言模型(LLMs)在自然语言生成任务中占据主导地位,但在图像与视频生成方面,其表现仍不及扩散模型(diffusion models)。为了有效利用LLMs进行视觉内容生成,一个关键组件是视觉分词器(visual tokenizer),其功能是将像素空间的输入映射为适合LLM学习的离散令牌(tokens)。本文提出了一种名为MAGVIT-v2的视频分词器,该分词器采用统一的令牌词汇表,能够为图像和视频生成简洁且富有表现力的离散令牌。借助这一新型分词器,我们验证了LLMs在ImageNet和Kinetics等标准图像与视频生成基准测试中,性能超越了扩散模型。此外,我们进一步证明,该分词器在两项额外任务上也优于此前表现最佳的视频分词器:(1)在人类评估中,其视频压缩效果可与下一代视频编码标准(VCC)相媲美;(2)在动作识别任务中,能够学习到具有高度有效性的视觉表征。
代码仓库
jy0205/Pyramid-Flow
pytorch
GitHub 中提及
lucidrains/magvit2-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-imagenet-256x256 | MAGVIT-v2 (w/o guidance) | FID: 3.65 |
| image-generation-on-imagenet-256x256 | MAGVIT-v2 | FID: 1.78 |
| image-generation-on-imagenet-512x512 | MAGVIT-v2 (w/o guidance) | FID: 3.07 Inception score: 213.1 |
| image-generation-on-imagenet-512x512 | MAGVIT-v2 | FID: 1.91 Inception score: 324.3 |
| video-generation-on-kinetics-600-12-frames | MAGVIT-v2 | FVD: 4.3±0.1 |
| video-generation-on-ucf-101 | MAGVIT-v2 | FVD16: 58±3 |
| video-generation-on-ucf-101 | MAGVIT-v2 (AR) | FVD16: 109 |
| video-prediction-on-kinetics-600-12-frames | MAGVIT-v2 | FVD: 4.3±0.1 |