
摘要
本文提出了一种高质量的人体运动预测方法,能够基于已观测到的人体姿态,准确预测未来的姿态序列。我们的方法基于一个关键观察:一个良好的未来姿态初始估计值,对于提升预测精度具有显著帮助。这一洞察促使我们提出一种新颖的两阶段预测框架:第一阶段为初始预测网络(init-prediction network),仅负责生成高质量的初始猜测;第二阶段为正式预测网络(formal-prediction network),基于该初始猜测进一步预测目标未来姿态。更为重要的是,我们进一步拓展该思想,设计了一种多阶段预测框架,其中每一阶段均生成下一阶段的初始猜测,从而带来更显著的性能提升。为在每一阶段完成预测任务,我们提出了一种融合空间密集图卷积网络(Spatial Dense Graph Convolutional Networks, S-DGCN)与时间密集图卷积网络(Temporal Dense Graph Convolutional Networks, T-DGCN)的网络结构。通过交替执行这两个网络,能够有效捕捉整个姿态序列在全局感受野范围内的时空特征。上述各项设计协同作用,使本方法在多个基准数据集上显著优于现有方法:在Human3.6M数据集上提升6%–7%,在CMU-MoCap数据集上提升5%–10%,在3DPW数据集上提升13%–16%。
代码仓库
705062791/pgbig
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-pose-forecasting-on-human36m | PGBIG | Average MPJPE (mm) @ 1000 ms: 110.3 Average MPJPE (mm) @ 400ms: 58.5 MAR, walking, 1,000ms: 0.69 MAR, walking, 400ms: 0.54 |