
摘要
在现实世界环境中进行未来预测,尤其是基于原始感官观测(如图像)的预测,极具挑战性。现实世界的事件往往是随机且不可预测的,而自然图像的高度维度和复杂性要求预测模型对自然界有深入的理解。许多现有方法通过简化环境假设来解决这一问题。一个常见的假设是结果是确定性的,只有一个合理的未来。然而,在具有随机动态的真实世界环境中,这种假设可能导致低质量的预测。本文中,我们开发了一种随机变分视频预测(SV2P)方法,该方法为每个潜在变量样本预测一个不同的可能未来。据我们所知,我们的模型是首个能够为真实世界视频提供有效的随机多帧预测的方法。我们在多个真实世界数据集上展示了所提出方法在预测视频详细未来帧方面的能力,这些数据集既包括无动作场景也包括有动作条件的场景。我们发现,与没有随机性的相同模型以及其他随机视频预测方法相比,所提出的SV2P方法显著提高了视频预测的质量。我们的SV2P实现将在论文发表后开源。
代码仓库
StanfordVL/roboturk_real_dataset
tf
GitHub 中提及
RoboTurk-Platform/roboturk_real_dataset
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-bair-robot-pushing | SV2P (from FVD) | Cond: 2 FVD score: 262.5 Pred: 14 Train: 14 |
| video-generation-on-bair-robot-pushing | SV2P (from SRVP) | Cond: 2 FVD score: 965±17 LPIPS: 0.0912±0.0053 PSNR: 20.39±0.27 Pred: 28 SSIM: 0.8169±0.0086 Train: 12 |
| video-prediction-on-kth | SV2P time-invariant (from Grid-keypoints) | Cond: 10 FVD: 253.5 LPIPS: 0.260 PSNR: 25.70 Params (M): 8.3 Pred: 40 SSIM: 0.772 Train: 10 |
| video-prediction-on-kth | SV2P time-invariant (from Grid-keypoints) | Cond: 10 FVD: 209.5 LPIPS: 0.232 PSNR: 25.87 Params (M): 8.3 Pred: 40 SSIM: 0.782 Train: 10 |
| video-prediction-on-kth | SV2P (from SRVP) | Cond: 10 FVD: 636 ± 1 LPIPS: 0.2049±0.0053 PSNR: 28.19±0.31 Pred: 30 SSIM: 0.838 Train: 10 |