3 个月前

用于视频预测与补全的扩散模型

用于视频预测与补全的扩散模型

摘要

预测未来结果或对序列中缺失信息进行推理,是智能体做出明智决策的关键能力,这需要具备强大且时间上连贯的生成能力。扩散模型在多个生成任务中已展现出卓越性能,但在视频领域的应用尚未得到充分探索。本文提出随机掩码视频扩散模型(Random-Mask Video Diffusion, RaMViD),通过引入三维卷积将图像扩散模型扩展至视频领域,并在训练过程中提出一种新的条件控制机制。通过改变所施加的掩码模式,该模型能够实现视频预测、内容补全(infilling)和超分辨率重建。由于采用了简洁的条件控制方案,模型可沿用无条件训练时的相同架构,从而实现条件与无条件训练的统一。我们在两个视频预测基准数据集上对RaMViD进行了评估,均取得了当前最优性能,并在另一个视频生成任务上进行了验证。高分辨率视频生成结果可访问 https://sites.google.com/view/video-diffusion-prediction 查看。

代码仓库

Tobi-r9/RaMViD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-generation-on-bair-robot-pushingRaMViD
Cond: 1
FVD score: 84.20
Pred: 15
Train: 20
video-prediction-on-kinetics-600-12-framesRaMViD
Cond: 5
FVD: 16.46
Pred: 11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频预测与补全的扩散模型 | 论文 | HyperAI超神经