
摘要
我们提出了一种基于卷积神经网络(CNN)的方法,用于从单个RGB图像中估计三维人体姿态,该方法解决了仅在有限的公开3D姿态数据上训练模型导致的泛化能力不足问题。通过利用已有的3D姿态数据和2D姿态数据进行特征迁移学习,我们在既定基准测试中展示了最先进的性能,同时还能泛化到野外场景。此外,我们引入了一个新的训练集,该训练集用于从真实人类的单目图像中估计人体姿态,其地面真值是通过多摄像机无标记动作捕捉系统获取的。该训练集补充了现有数据集,在姿态、人类外观、服装、遮挡和视角方面具有更大的多样性,并且支持更广泛的增强范围。我们还贡献了一个新的基准测试,涵盖了室外和室内场景,并证明我们的3D姿态数据集在野外场景中的表现优于现有的标注数据,结合从2D姿态数据进行的迁移学习后,这一表现进一步提升。总体而言,我们认为表示的迁移学习与算法和数据贡献相结合对于实现泛化的3D人体姿态估计至关重要。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | 3DPoseNet | Average MPJPE (mm): 72.88 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | Mehta | AUC: 40.8 PCK: 64.7 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | Mehta | AUC: 39.3 MPJPE: 117.6 PCK: 75.7 |
| pose-estimation-on-leeds-sports-poses | Mehta | PCK: 75.7 |