
摘要
从单张图像中进行人体姿态估计是计算机视觉中的一个具有挑战性的问题,需要大量标注的训练数据才能准确解决。不幸的是,对于许多人类活动(例如户外运动)而言,这种训练数据并不存在,且使用传统动作捕捉系统获取这些数据非常困难甚至不可能。我们提出了一种自监督方法,该方法可以从无标签的多视角数据中学习单张图像的3D姿态估计器。为此,我们利用多视角一致性约束来解耦观察到的2D姿态,将其分解为底层的3D姿态和相机旋转。与大多数现有方法不同,我们的方法不需要校准相机,因此可以从移动相机中学习。然而,在静态相机设置的情况下,我们提出了一种可选扩展方案,将多个视角中的恒定相对相机旋转纳入我们的框架。成功的关键在于新的、无偏的重建目标,这些目标能够在不同视角和训练样本之间混合信息。所提出的这种方法在两个基准数据集(Human3.6M 和 MPII-INF-3DHP)以及野外滑雪姿势数据集(SkiPose)上进行了评估。
代码仓库
bastianwandt/CanonPose
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | CanonPose | Average MPJPE (mm): 74.3 Multi-View or Monocular: MultiView Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | CanonPose | MPJPE: 104 PCK: 77 |
| 3d-human-pose-estimation-on-skipose | CanonPose | CPS: 108.7 MPJPE: 128.1 P-MPJPE: 89.6 PCK: 67.1 |
| weakly-supervised-3d-human-pose-estimation-on | CanonPose | 3D Annotations: No Average MPJPE (mm): 74.3 Number of Frames Per View: 1 Number of Views: 1 |