
摘要
单目3D人体姿态估计在野外环境中的一个主要挑战是获取包含无约束图像并标注有准确3D姿态的训练数据。本文针对这一挑战,提出了一种弱监督方法,该方法不需要3D标注,并且能够从容易在野外环境中获取的未标注多视图数据中学习估计3D姿态。我们设计了一个新颖的端到端学习框架,通过利用多视图一致性实现弱监督训练。由于多视图一致性容易导致退化解,我们采用了2.5D姿态表示,并提出了一种新的目标函数,只有当训练模型在所有摄像机视角下的预测结果既一致又合理时,该目标函数才能被最小化。我们在两个大规模数据集(Human3.6M和MPII-INF-3DHP)上评估了所提出的 方法,在半监督/弱监督方法中达到了最先进的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | GeoRep (fully-supervised) | Average MPJPE (mm): 56.1 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | GeoRep (fully-supervised) | MPJPE: 110.8 PCK: 80.2 |
| weakly-supervised-3d-human-pose-estimation-on | GeoRep | Average MPJPE (mm): 67.4 |
| weakly-supervised-3d-human-pose-estimation-on | GeoRep (semi-supervised) | Average MPJPE (mm): 59.7 |
| weakly-supervised-3d-human-pose-estimation-on-1 | GeoRep | MPJPE: 122.4 PCK: 76.5 |
| weakly-supervised-3d-human-pose-estimation-on-1 | GeoRep (semi-supervised) | MPJPE: 113.8 PCK: 79.1 |