
摘要
本文研究了在自然场景下进行三维人体姿态估计的任务。该任务具有挑战性,主要原因是训练数据的缺乏:现有的数据集要么是包含二维姿态标注的自然图像,要么是带有三维姿态标注的实验室图像。为此,我们提出了一种弱监督的迁移学习方法,该方法在一个统一的深度神经网络中联合使用二维和三维标签,并采用两阶段级联结构。我们的网络在最先进的二维姿态估计子网络基础上,引入了一个三维深度回归子网络。与以往两阶段方法中分别、顺序训练两个子网络的做法不同,我们的方法采用端到端的训练策略,充分挖掘二维姿态估计与深度估计任务之间的相关性,通过共享特征表示,使深层特征学习更加有效。由此,可将受控实验室环境中获得的三维姿态标签迁移到自然场景图像中。此外,我们引入了一种三维几何约束来正则化三维姿态预测,在缺乏真实深度标签的情况下仍能显著提升性能。实验结果表明,该方法在二维和三维姿态估计基准测试上均取得了具有竞争力的性能。
代码仓库
mikeshihyaolin/pose-hg-3d-preprocessing
GitHub 中提及
mengyingfei/pose-3d-pytorch-ros
pytorch
GitHub 中提及
ECE740F21T01/pytorch-pose-hg-3d
pytorch
GitHub 中提及
xingyizhou/pytorch-pose-hg-3d
pytorch
GitHub 中提及
nish-97v/3D-human-pose-estimation
pytorch
GitHub 中提及
xingyizhou/pose-hg-3d
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-geometric-pose | Baseline model | MPJPE (CA): 89.2 MPJPE (CS): 99.4 PCK3D (CA): 83.6 PCK3D (CS): 81.3 |
| 3d-human-pose-estimation-on-human36m | Zhou | Average MPJPE (mm): 64.9 |
| monocular-3d-human-pose-estimation-on-human3 | Weakly Supervised Transfer Learning | Average MPJPE (mm): 64.9 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |