Lijun YuYong ChengKihyuk SohnJosé LezamaHan ZhangHuiwen ChangAlexander G. HauptmannMing-Hsuan YangYuan HaoIrfan EssaLu Jiang

摘要
我们提出了一种名为MAsked Generative VIdeo Transformer(MAGVIT)的统一模型,用于解决多种视频生成任务。为实现这一目标,我们引入了一种3D分词器,将视频量化为时空视觉标记(spatial-temporal visual tokens),并提出了一种针对掩码视频标记的嵌入方法,以支持多任务学习。通过大量实验,我们验证了MAGVIT在生成质量、计算效率和任务灵活性方面的卓越表现。实验结果表明:(i)MAGVIT在多项前沿视频生成基准测试中表现优异,特别是在具有挑战性的Kinetics-600数据集上,取得了目前公开报道的最佳FVD(Fréchet Video Distance)分数;(ii)在推理速度方面,MAGVIT相比扩散模型提升了两个数量级,相比自回归模型提升了60倍;(iii)单一MAGVIT模型可支持十种不同的生成任务,并具备跨不同视觉领域视频的强泛化能力。项目源代码与训练好的模型将公开发布于 https://magvit.cs.cmu.edu。
代码仓库
google-research/magvit
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-something | MAGVIT | FVD: 79.1 |
| video-generation-on-bair-robot-pushing | MAGVIT | Cond: 1 FVD score: 62 Pred: 15 Train: 15 |
| video-generation-on-kinetics-600-12-frames | MAGVIT | FVD: 9.9 |
| video-generation-on-ucf-101 | MAGVIT (AR) | FVD16: 265 |
| video-generation-on-ucf-101 | MAGVIT (-L-CG, 128x128, class-conditional) | FVD16: 76±2 Inception Score: 89.27±0.15 |
| video-generation-on-ucf-101 | MAGVIT (-B-CG, 128x128, class-conditional) | FVD16: 159±2 Inception Score: 83.55±0.14 |
| video-prediction-on-bair-robot-pushing-1 | MAGVIT (-B-FP) | FVD: 76±0.1 |
| video-prediction-on-bair-robot-pushing-1 | MAGVIT (-L-FP) | FVD: 62±0.1 |
| video-prediction-on-kinetics-600-12-frames | MAGVIT (-L-FP) | Cond: 5 FVD: 9.9±0.3 Pred: 11 |
| video-prediction-on-kinetics-600-12-frames | MAGVIT (-B-FP) | Cond: 5 FVD: 24.5±0.9 Pred: 11 |
| video-prediction-on-something-something-v2 | MAGVIT | FVD: 28.5 |