4 个月前

姿态预示未来:通过生成姿态预测进行视频预测

姿态预示未来:通过生成姿态预测进行视频预测

摘要

当前的视频预测方法试图直接在像素空间中生成视频,使用生成对抗网络(GANs)或变分自编码器(VAEs)。然而,由于这些方法试图同时建模所有的结构和场景动态,在不受限制的情况下,它们经常产生难以解释的结果。我们的见解是将预测问题提升到更高的抽象层次进行建模。具体而言,我们利用人体姿态检测器作为免费的监督源,并将视频预测问题分解为两个独立的步骤。首先,我们显式地建模场景中活跃对象——人类——的高层次结构,并使用VAE来建模人体在姿态空间中的可能未来运动。然后,我们将生成的未来姿态作为条件信息输入到GAN中,以预测视频未来的帧在像素空间中的表现。通过使用姿态的结构化空间作为中间表示,我们避开了GAN直接生成视频像素时所面临的问题。通过定量和定性评估,我们证明了我们的方法在视频预测方面优于现有最先进方法。

基准测试

基准方法指标
human-pose-forecasting-on-amassThePoseKnows
ADE: 0.656
APD: 9.283
FDE: 0.675
human-pose-forecasting-on-human36mPose-Knows
ADE: 461
APD: 6723
CMD: 6.326
FDE: 560
FID: 0.538
MMADE: 522
MMFDE: 569
human-pose-forecasting-on-humaneva-iPose-Knows
ADE@2000ms: 269
APD@2000ms: 2308
FDE@2000ms: 296

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
姿态预示未来:通过生成姿态预测进行视频预测 | 论文 | HyperAI超神经