
摘要
当前的视频预测方法试图直接在像素空间中生成视频,使用生成对抗网络(GANs)或变分自编码器(VAEs)。然而,由于这些方法试图同时建模所有的结构和场景动态,在不受限制的情况下,它们经常产生难以解释的结果。我们的见解是将预测问题提升到更高的抽象层次进行建模。具体而言,我们利用人体姿态检测器作为免费的监督源,并将视频预测问题分解为两个独立的步骤。首先,我们显式地建模场景中活跃对象——人类——的高层次结构,并使用VAE来建模人体在姿态空间中的可能未来运动。然后,我们将生成的未来姿态作为条件信息输入到GAN中,以预测视频未来的帧在像素空间中的表现。通过使用姿态的结构化空间作为中间表示,我们避开了GAN直接生成视频像素时所面临的问题。通过定量和定性评估,我们证明了我们的方法在视频预测方面优于现有最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-pose-forecasting-on-amass | ThePoseKnows | ADE: 0.656 APD: 9.283 FDE: 0.675 |
| human-pose-forecasting-on-human36m | Pose-Knows | ADE: 461 APD: 6723 CMD: 6.326 FDE: 560 FID: 0.538 MMADE: 522 MMFDE: 569 |
| human-pose-forecasting-on-humaneva-i | Pose-Knows | ADE@2000ms: 269 APD@2000ms: 2308 FDE@2000ms: 296 |