3 个月前

MAGVIT:掩码生成视频Transformer

MAGVIT:掩码生成视频Transformer

摘要

我们提出了一种名为MAsked Generative VIdeo Transformer(MAGVIT)的统一模型,用于解决多种视频生成任务。为实现这一目标,我们引入了一种3D分词器,将视频量化为时空视觉标记(spatial-temporal visual tokens),并提出了一种针对掩码视频标记的嵌入方法,以支持多任务学习。通过大量实验,我们验证了MAGVIT在生成质量、计算效率和任务灵活性方面的卓越表现。实验结果表明:(i)MAGVIT在多项前沿视频生成基准测试中表现优异,特别是在具有挑战性的Kinetics-600数据集上,取得了目前公开报道的最佳FVD(Fréchet Video Distance)分数;(ii)在推理速度方面,MAGVIT相比扩散模型提升了两个数量级,相比自回归模型提升了60倍;(iii)单一MAGVIT模型可支持十种不同的生成任务,并具备跨不同视觉领域视频的强泛化能力。项目源代码与训练好的模型将公开发布于 https://magvit.cs.cmu.edu。

代码仓库

google-research/magvit
官方
jax
GitHub 中提及

基准测试

基准方法指标
text-to-video-generation-on-somethingMAGVIT
FVD: 79.1
video-generation-on-bair-robot-pushingMAGVIT
Cond: 1
FVD score: 62
Pred: 15
Train: 15
video-generation-on-kinetics-600-12-framesMAGVIT
FVD: 9.9
video-generation-on-ucf-101MAGVIT (AR)
FVD16: 265
video-generation-on-ucf-101MAGVIT (-L-CG, 128x128, class-conditional)
FVD16: 76±2
Inception Score: 89.27±0.15
video-generation-on-ucf-101MAGVIT (-B-CG, 128x128, class-conditional)
FVD16: 159±2
Inception Score: 83.55±0.14
video-prediction-on-bair-robot-pushing-1MAGVIT (-B-FP)
FVD: 76±0.1
video-prediction-on-bair-robot-pushing-1MAGVIT (-L-FP)
FVD: 62±0.1
video-prediction-on-kinetics-600-12-framesMAGVIT (-L-FP)
Cond: 5
FVD: 9.9±0.3
Pred: 11
video-prediction-on-kinetics-600-12-framesMAGVIT (-B-FP)
Cond: 5
FVD: 24.5±0.9
Pred: 11
video-prediction-on-something-something-v2MAGVIT
FVD: 28.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MAGVIT:掩码生成视频Transformer | 论文 | HyperAI超神经