
摘要
设计能够考虑未来固有不确定性的视频预测模型是一项极具挑战性的任务。现有文献中的大多数方法基于随机图像自回归递归网络,但这类方法存在诸多性能与适用性问题。另一种替代方案是采用完全基于隐变量的时序模型,将帧生成与时间动态解耦。然而,由于模型设计与训练上的困难,目前尚无文献提出适用于随机视频预测的此类模型。本文通过引入一种新颖的随机时序模型,成功克服了上述难题。该模型在隐空间中通过残差更新规则控制动态演化,其一阶更新机制受到微分方程离散化方法的启发。该设计天然地刻画了视频动态特性,使得我们提出的结构更简单、更具可解释性的隐变量模型,在多个具有挑战性的数据集上超越了现有的最先进方法。
代码仓库
edouardelasalles/srvp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | SRVP | Cond: 2 FVD score: 162 ± 4 LPIPS: 0.0574±0.0032 PSNR: 19.59±0.27 Pred: 28 SSIM: 0.8196±0.0084 Train: 12 |
| video-prediction-on-cityscapes-128x128 | SRVP | Cond.: 10 LPIPS: 0.447±0.014 PSNR: 20.97±0.43 Pred: 20 SSIM: 0.603±0.016 |
| video-prediction-on-kth | SRVP | Cond: 10 FVD: 222 ± 3 LPIPS: 0.0736±0.0029 PSNR: 29.69±032 Pred: 30 SSIM: 0.8697±0.0046 Train: 10 |
| video-prediction-on-kth-64x64-cond10-pred30 | SRVP | FVD: 222 |