
摘要
运动是视频预测中的重要线索,通常通过将视频内容分解为静态与动态两部分来加以利用。以往大多数基于运动的方法均为确定性模型,尽管已有部分随机性方法能够建模未来发展的固有不确定性。然而,现有的随机模型要么未能显式地对运动进行建模,要么对静态部分做出了过于受限的假设。本文提出一种基于运动历史的随机建模方法,对视频的外观和运动进行联合的随机推理。即使不依赖运动历史,仅通过显式建模运动已可达到当前先进随机模型的性能水平;而引入运动历史后,模型能够更准确地预测未来多帧的一致性动态行为,进一步提升预测效果。在通用视频预测数据集上,本模型性能与当前最先进方法相当;而在两个具有复杂运动和动态背景的现实世界自动驾驶数据集上,本模型则显著优于现有方法。
代码仓库
kaanakan/slamp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | SLAMP | Cond: 2 FVD score: 245 ± 5 LPIPS: 0.0596±0.0032 PSNR: 19.67±0.26 Pred: 28 SSIM: 0.8175±0.084 Train: 10 |
| video-prediction-on-cityscapes-128x128 | SLAMP | Cond.: 10 LPIPS: 0.2941±0.022 PSNR: 21.73±0.76 Pred: 20 SSIM: 0.649±0.025 |
| video-prediction-on-kth | SLAMP | Cond: 10 FVD: 228 ± 5 LPIPS: 0.0795±0.0034 PSNR: 29.39±0.30 Pred: 30 SSIM: 0.8646±0.0050 Train: 10 |