4 个月前

随机对抗视频预测

随机对抗视频预测

摘要

能够预测未来可能发生的事情需要对支配世界的物理和因果规则有深入的理解。一个能够实现这一目标的模型在许多方面都具有吸引力的应用,从机器人规划到表征学习。然而,学习预测原始未来的观察结果(如视频中的帧)极具挑战性——问题的不确定性可能导致设计简单的模型将多种可能的未来平均化为单一、模糊的预测。最近,这个问题通过两种不同的方法得到了解决:(a) 显式建模潜在随机性的潜在变分变量模型;(b) 旨在生成自然图像的对抗训练模型。然而,标准的潜在变量模型在生成逼真结果方面可能会遇到困难,而标准的对抗训练模型则未能充分利用潜在变量,无法生成多样化的预测。我们证明了这两种方法实际上是互补的。将它们结合使用可以生成看起来更逼真且更好地覆盖各种可能未来的预测。我们的方法在这两个方面均优于先前和同期的研究工作。

代码仓库

基准测试

基准方法指标
video-generation-on-bair-robot-pushingSAVP (from SRVP)
Cond: 2
FVD score: 152±9
LPIPS: 0.0634±0.0026
PSNR: 18.44±0.25
Pred: 28
SSIM: 0.7887±0.0092
Train: 12
video-generation-on-bair-robot-pushingSAVP (from vRNN)
Cond: 2
FVD score: 143.43
LPIPS: 0.062±0.03
Pred: 28
SSIM: 0.795±0.07
Train: 10
video-generation-on-bair-robot-pushingSAVP (from FVD)
Cond: 2
FVD score: 116.4
Pred: 14
Train: 14
video-generation-on-bair-robot-pushingSAVP-VAE (from WAM)
Cond: 2
PSNR: 19.09
Pred: 28
SSIM: 0.815
Train: 14
video-prediction-on-kthSAVP-VAE
Cond: 10
PSNR: 27.77
Pred: 20
SSIM: 0.852
video-prediction-on-kthSAVP-VAE (from Grid-keypoints)
Cond: 10
FVD: 145.7
LPIPS: 0.116
PSNR: 26.00
Params (M): 7.3
Pred: 40
SSIM: 0.806
Train: 10
video-prediction-on-kthSAVP (from Grid-keypoints)
Cond: 10
FVD: 183.7
LPIPS: 0.126
PSNR: 23.79
Params (M): 17.6
Pred: 40
SSIM: 0.699
Train: 10
video-prediction-on-kthSAVP (from SRVP)
Cond: 10
FVD: 374 ± 3
LPIPS: 0.1120±0.0039
PSNR: 26.51±0.29
Pred: 30
SSIM: 0.7564±0.0062
Train: 10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
随机对抗视频预测 | 论文 | HyperAI超神经