3 个月前

VideoGPT:基于VQ-VAE与Transformer的视频生成

VideoGPT:基于VQ-VAE与Transformer的视频生成

摘要

我们提出 VideoGPT:一种概念简洁的架构,可将基于似然的生成建模方法扩展至自然视频生成。VideoGPT 采用 VQ-VAE 模型,通过使用三维卷积和轴向自注意力机制,学习原始视频的下采样离散潜在表示。随后,利用一种类似 GPT 的简单架构,结合时空位置编码,对这些离散潜在变量进行自回归建模。尽管该架构在形式上简洁且易于训练,但在 BAIR 机器人数据集上生成的视频样本已达到与当前最先进的 GAN 模型相媲美的水平;同时,它还能从 UCF-101 和 Tumbler GIF 数据集(TGIF)中生成高质量、高保真的自然视频。我们期望所提出的架构能为基于 Transformer 的视频生成模型提供一个可复现的最小化实现参考。相关样本与代码已公开,详见:https://wilson1yan.github.io/videogpt/index.html

代码仓库

wilson1yan/VideoGPT
官方
pytorch
GitHub 中提及
alescontrela/viper
jax
GitHub 中提及
Alescontrela/viper_rl
jax
GitHub 中提及

基准测试

基准方法指标
video-generation-on-bair-robot-pushingVideoGPT
Cond: 1
FVD score: 103.3
Pred: 15
Train: 15
video-generation-on-ucf-101-16-frames-128x128VideoGPT
Inception Score: 24.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VideoGPT:基于VQ-VAE与Transformer的视频生成 | 论文 | HyperAI超神经