
摘要
能够预测未来可能发生的事情需要对支配世界的物理和因果规则有深入的理解。一个能够实现这一目标的模型在许多方面都具有吸引力的应用,从机器人规划到表征学习。然而,学习预测原始未来的观察结果(如视频中的帧)极具挑战性——问题的不确定性可能导致设计简单的模型将多种可能的未来平均化为单一、模糊的预测。最近,这个问题通过两种不同的方法得到了解决:(a) 显式建模潜在随机性的潜在变分变量模型;(b) 旨在生成自然图像的对抗训练模型。然而,标准的潜在变量模型在生成逼真结果方面可能会遇到困难,而标准的对抗训练模型则未能充分利用潜在变量,无法生成多样化的预测。我们证明了这两种方法实际上是互补的。将它们结合使用可以生成看起来更逼真且更好地覆盖各种可能未来的预测。我们的方法在这两个方面均优于先前和同期的研究工作。
代码仓库
kamran0153/impact-of-data-freshness-in-learning
tf
GitHub 中提及
alexlee-gk/video_prediction
官方
tf
GitHub 中提及
MIT-Omnipush/video-prediction
tf
GitHub 中提及
Bonennult/video_prediction
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | SAVP (from SRVP) | Cond: 2 FVD score: 152±9 LPIPS: 0.0634±0.0026 PSNR: 18.44±0.25 Pred: 28 SSIM: 0.7887±0.0092 Train: 12 |
| video-generation-on-bair-robot-pushing | SAVP (from vRNN) | Cond: 2 FVD score: 143.43 LPIPS: 0.062±0.03 Pred: 28 SSIM: 0.795±0.07 Train: 10 |
| video-generation-on-bair-robot-pushing | SAVP (from FVD) | Cond: 2 FVD score: 116.4 Pred: 14 Train: 14 |
| video-generation-on-bair-robot-pushing | SAVP-VAE (from WAM) | Cond: 2 PSNR: 19.09 Pred: 28 SSIM: 0.815 Train: 14 |
| video-prediction-on-kth | SAVP-VAE | Cond: 10 PSNR: 27.77 Pred: 20 SSIM: 0.852 |
| video-prediction-on-kth | SAVP-VAE (from Grid-keypoints) | Cond: 10 FVD: 145.7 LPIPS: 0.116 PSNR: 26.00 Params (M): 7.3 Pred: 40 SSIM: 0.806 Train: 10 |
| video-prediction-on-kth | SAVP (from Grid-keypoints) | Cond: 10 FVD: 183.7 LPIPS: 0.126 PSNR: 23.79 Params (M): 17.6 Pred: 40 SSIM: 0.699 Train: 10 |
| video-prediction-on-kth | SAVP (from SRVP) | Cond: 10 FVD: 374 ± 3 LPIPS: 0.1120±0.0039 PSNR: 26.51±0.29 Pred: 30 SSIM: 0.7564±0.0062 Train: 10 |