
摘要
近日,在利用单目图像进行三维人体姿态估计方面取得了显著进展,这主要得益于强大的深度卷积神经网络(DCNNs)。尽管在受限实验室环境中收集的大规模数据集上取得了成功,但获取野外图像的三维姿态注释仍然十分困难。因此,野外环境下的三维人体姿态估计仍然是一个挑战。本文中,我们提出了一种对抗学习框架,该框架能够将从完全注释的数据集中学到的三维人体姿态结构迁移到仅有二维姿态注释的野外图像中。不同于定义硬编码规则来约束姿态估计结果,我们设计了一种新颖的多源判别器,用于区分预测的三维姿态与真实值,从而有助于强制姿态估计器生成即使在野外图像中也符合人体测量学的有效姿态。我们还观察到,为判别器精心设计的信息源对于提升性能至关重要。因此,我们设计了几何描述符作为判别器的新信息源,该描述符计算身体关节之间的两两相对位置和距离。通过在广泛使用的公共基准上的大量实验验证了我们的对抗学习框架结合新几何描述符的有效性。与之前最先进的方法相比,我们的方法显著提升了性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | Adversarial Learning | Average MPJPE (mm): 58.6 PA-MPJPE: 37.7 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | Adversarial Learning | AUC: 32.0 PCK: 69.0 |
| monocular-3d-human-pose-estimation-on-human3 | Adversarial Learning | Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |
| pose-estimation-on-mpii-single-person | Adversarial Learning | PCKh@0.5: 88.6 |