4 个月前

随机变分视频预测

随机变分视频预测

摘要

在现实世界环境中进行未来预测,尤其是基于原始感官观测(如图像)的预测,极具挑战性。现实世界的事件往往是随机且不可预测的,而自然图像的高度维度和复杂性要求预测模型对自然界有深入的理解。许多现有方法通过简化环境假设来解决这一问题。一个常见的假设是结果是确定性的,只有一个合理的未来。然而,在具有随机动态的真实世界环境中,这种假设可能导致低质量的预测。本文中,我们开发了一种随机变分视频预测(SV2P)方法,该方法为每个潜在变量样本预测一个不同的可能未来。据我们所知,我们的模型是首个能够为真实世界视频提供有效的随机多帧预测的方法。我们在多个真实世界数据集上展示了所提出方法在预测视频详细未来帧方面的能力,这些数据集既包括无动作场景也包括有动作条件的场景。我们发现,与没有随机性的相同模型以及其他随机视频预测方法相比,所提出的SV2P方法显著提高了视频预测的质量。我们的SV2P实现将在论文发表后开源。

基准测试

基准方法指标
video-generation-on-bair-robot-pushingSV2P (from FVD)
Cond: 2
FVD score: 262.5
Pred: 14
Train: 14
video-generation-on-bair-robot-pushingSV2P (from SRVP)
Cond: 2
FVD score: 965±17
LPIPS: 0.0912±0.0053
PSNR: 20.39±0.27
Pred: 28
SSIM: 0.8169±0.0086
Train: 12
video-prediction-on-kthSV2P time-invariant (from Grid-keypoints)
Cond: 10
FVD: 253.5
LPIPS: 0.260
PSNR: 25.70
Params (M): 8.3
Pred: 40
SSIM: 0.772
Train: 10
video-prediction-on-kthSV2P time-invariant (from Grid-keypoints)
Cond: 10
FVD: 209.5
LPIPS: 0.232
PSNR: 25.87
Params (M): 8.3
Pred: 40
SSIM: 0.782
Train: 10
video-prediction-on-kthSV2P (from SRVP)
Cond: 10
FVD: 636 ± 1
LPIPS: 0.2049±0.0053
PSNR: 28.19±0.31
Pred: 30
SSIM: 0.838
Train: 10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
随机变分视频预测 | 论文 | HyperAI超神经