
摘要
我们提出 VideoGPT:一种概念简洁的架构,可将基于似然的生成建模方法扩展至自然视频生成。VideoGPT 采用 VQ-VAE 模型,通过使用三维卷积和轴向自注意力机制,学习原始视频的下采样离散潜在表示。随后,利用一种类似 GPT 的简单架构,结合时空位置编码,对这些离散潜在变量进行自回归建模。尽管该架构在形式上简洁且易于训练,但在 BAIR 机器人数据集上生成的视频样本已达到与当前最先进的 GAN 模型相媲美的水平;同时,它还能从 UCF-101 和 Tumbler GIF 数据集(TGIF)中生成高质量、高保真的自然视频。我们期望所提出的架构能为基于 Transformer 的视频生成模型提供一个可复现的最小化实现参考。相关样本与代码已公开,详见:https://wilson1yan.github.io/videogpt/index.html
代码仓库
wilson1yan/VideoGPT
官方
pytorch
GitHub 中提及
alescontrela/viper
jax
GitHub 中提及
Alescontrela/viper_rl
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | VideoGPT | Cond: 1 FVD score: 103.3 Pred: 15 Train: 15 |
| video-generation-on-ucf-101-16-frames-128x128 | VideoGPT | Inception Score: 24.69 |