
摘要
视频预测是一项具有挑战性的任务。当前最先进的生成模型所生成的视频帧质量普遍较低,且在训练数据之外的泛化能力较差。此外,现有的预测框架通常无法同时处理其他视频相关任务,例如无条件生成或视频插值。在本工作中,我们提出了一种通用型框架——掩码条件视频扩散模型(Masked Conditional Video Diffusion, MCVD),该框架基于概率性条件得分驱动的去噪扩散模型,以过去和/或未来帧作为条件,统一处理各类视频合成任务。我们采用一种新颖而简洁的训练方式:随机且独立地掩码所有过去帧或所有未来帧。这一设计使得仅需训练一个模型,即可完成多种视频任务,具体包括:未来/过去帧预测(仅掩码未来/过去帧)、无条件生成(同时掩码过去和未来帧),以及插值(不掩码任何过去或未来帧)。实验结果表明,该方法能够为多种类型的视频生成高质量帧。我们的MCVD模型基于简单的非循环2D卷积架构,以帧块为单位进行条件输入并生成帧块,采用分块自回归方式生成任意长度的视频。该方法在标准视频预测与插值基准测试中均取得了当前最优(SOTA)性能,模型训练时间仅为1至12天,且仅需不超过4块GPU。项目主页:https://mask-cond-video-diffusion.github.io;代码地址:https://github.com/voletiv/mcvd-pytorch。
代码仓库
voletiv/mcvd-pytorch
官方
pytorch
GitHub 中提及
showlab/FAR
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | MCVD : c2t5p14 | Cond: 2 FVD score: 87.9 PSNR: 19.1 Pred: 14 SSIM: 0.838 Train: 5 |
| video-generation-on-bair-robot-pushing | MCVD : c1t5p15 | Cond: 1 FVD score: 89.5 PSNR: 16.9 Pred: 15 SSIM: 0.78 Train: 5 |
| video-generation-on-bair-robot-pushing | MCVD : c2t5p28 | Cond: 2 FVD score: 118.4 PSNR: 16.2 Pred: 28 SSIM: 0.745 Train: 5 |
| video-generation-on-ucf-101 | MCVD (64x64) | FVD16: 1143 |