
摘要
本文探讨了从单张彩色图像中进行三维人体姿态估计的挑战。尽管端到端学习范式总体上取得了成功,但目前表现最佳的方法通常采用两步解决方案:首先使用卷积神经网络(ConvNet)进行二维关节定位,然后通过后续的优化步骤恢复三维姿态。在本文中,我们确定了当前 ConvNet 方法中三维姿态表示的关键问题,并在此任务上验证端到端学习的价值方面做出了两项重要贡献。首先,我们提出了围绕主体对三维空间进行精细离散化的方法,并训练 ConvNet 预测每个关节在每个体素中的概率。这为三维姿态提供了一种自然的表示方法,并显著提高了直接回归关节坐标的性能。其次,为了进一步改进初始估计,我们采用了由粗到精的预测方案。该步骤解决了维度大幅增加的问题,并允许对图像特征进行迭代细化和重复处理。所提出的这种方法在标准基准测试中超越了所有现有方法,平均相对误差减少了超过 30%。此外,我们还研究了在一种相关架构中使用我们的体积表示方法,虽然这种架构相比我们的端到端方法次优,但由于它能够在没有对应三维地面真值的图像上进行训练,并且能够展示野外图像的令人信服的结果,因此具有实际应用价值。
代码仓库
thuml/ContextWM
pytorch
GitHub 中提及
strawberryfg/c2f-3dhm-human-caffe
pytorch
GitHub 中提及
geopavlakos/c2f-vol-train
pytorch
GitHub 中提及
geopavlakos/c2f-vol-demo
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | c2f-vol | Average MPJPE (mm): 71.9 PA-MPJPE: 51.9 |
| 3d-human-pose-estimation-on-humaneva-i | c2f-vol | Mean Reconstruction Error (mm): 24.3 |