
摘要
预测未来结果或对序列中缺失信息进行推理,是智能体做出明智决策的关键能力,这需要具备强大且时间上连贯的生成能力。扩散模型在多个生成任务中已展现出卓越性能,但在视频领域的应用尚未得到充分探索。本文提出随机掩码视频扩散模型(Random-Mask Video Diffusion, RaMViD),通过引入三维卷积将图像扩散模型扩展至视频领域,并在训练过程中提出一种新的条件控制机制。通过改变所施加的掩码模式,该模型能够实现视频预测、内容补全(infilling)和超分辨率重建。由于采用了简洁的条件控制方案,模型可沿用无条件训练时的相同架构,从而实现条件与无条件训练的统一。我们在两个视频预测基准数据集上对RaMViD进行了评估,均取得了当前最优性能,并在另一个视频生成任务上进行了验证。高分辨率视频生成结果可访问 https://sites.google.com/view/video-diffusion-prediction 查看。
代码仓库
Tobi-r9/RaMViD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | RaMViD | Cond: 1 FVD score: 84.20 Pred: 15 Train: 20 |
| video-prediction-on-kinetics-600-12-frames | RaMViD | Cond: 5 FVD: 16.46 Pred: 11 |