3 个月前

SLAMP:随机潜在外观与运动预测

SLAMP:随机潜在外观与运动预测

摘要

运动是视频预测中的重要线索,通常通过将视频内容分解为静态与动态两部分来加以利用。以往大多数基于运动的方法均为确定性模型,尽管已有部分随机性方法能够建模未来发展的固有不确定性。然而,现有的随机模型要么未能显式地对运动进行建模,要么对静态部分做出了过于受限的假设。本文提出一种基于运动历史的随机建模方法,对视频的外观和运动进行联合的随机推理。即使不依赖运动历史,仅通过显式建模运动已可达到当前先进随机模型的性能水平;而引入运动历史后,模型能够更准确地预测未来多帧的一致性动态行为,进一步提升预测效果。在通用视频预测数据集上,本模型性能与当前最先进方法相当;而在两个具有复杂运动和动态背景的现实世界自动驾驶数据集上,本模型则显著优于现有方法。

代码仓库

kaanakan/slamp
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-generation-on-bair-robot-pushingSLAMP
Cond: 2
FVD score: 245 ± 5
LPIPS: 0.0596±0.0032
PSNR: 19.67±0.26
Pred: 28
SSIM: 0.8175±0.084
Train: 10
video-prediction-on-cityscapes-128x128SLAMP
Cond.: 10
LPIPS: 0.2941±0.022
PSNR: 21.73±0.76
Pred: 20
SSIM: 0.649±0.025
video-prediction-on-kthSLAMP
Cond: 10
FVD: 228 ± 5
LPIPS: 0.0795±0.0034
PSNR: 29.39±0.30
Pred: 30
SSIM: 0.8646±0.0050
Train: 10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供