
摘要
三维人体姿态估计通常被视为相对于根关节(如髋部)估计三维姿态的任务。与此不同,本文提出了一种基于相机坐标系的三维人体姿态估计方法,该方法能够有效融合二维标注数据与三维姿态信息,并实现直观的多视角泛化。为此,我们将问题建模为视锥空间(view frustum space)中的姿态估计,将绝对深度预测与关节间的相对深度估计解耦。最终的三维预测结果通过逆相机投影在相机坐标系中获得。基于此框架,我们进一步提出一种基于一致性(consensus-based)的优化算法,用于从未标定的多视角图像中进行姿态预测,且仅需单一的单目训练流程。尽管该方法在一定程度上依赖于训练阶段的相机内参,但其仍能在具有不同内参的相机上实现收敛,从而在尺度因子范围内获得一致且合理的估计结果。在多个知名三维人体姿态数据集上的实验表明,本方法显著优于现有技术水平,尤其在最常用的基准测试中,预测误差降低了32%。此外,我们在绝对姿态位置误差(absolute pose position error)方面也取得了优异表现:单目估计平均误差为80毫米,多视角估计平均误差为51毫米。
代码仓库
dluvizon/3d-pose-consensus
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | Pose Consensus (monocular) | Average MPJPE (mm): 52 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | Pose Consensus (multi-view, est. calib.) | Average MPJPE (mm): 45 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | Pose Consensus (multi-view, GT calib.) | Average MPJPE (mm): 39 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | Pose Consensus (monocular) | AUC: 42.1 MPJPE: 112.1 PCK: 80.6 |