
摘要
三维模型为人类身体的不同表示形式提供了一个统一的基础。反过来,鲁棒的二维姿态估计已被证明是获取真实场景中三维人体模型拟合结果的强大工具。然而,由于所需细节程度的不同,大规模获取用于训练二维估计器的标注数据往往十分困难,甚至不可能。为此,我们提出了一种混合解决方案:通过扩展近期提出的SMPLify方法,我们为多个三维人体姿态数据集获得了高质量的三维人体模型拟合结果。人类标注员仅需对拟合结果进行“优”与“劣”的分类。这一流程生成了一个名为UP-3D的初始数据集,其包含丰富的标注信息。通过一系列全面的实验,我们展示了如何利用该数据集训练判别性模型,从而实现前所未有的细节水平——我们的模型可预测人体上的31个身体部位和91个关键点位置。利用这91个关键点的姿态估计器,我们在仅使用现有训练数据数量一个数量级的情况下,实现了当前最先进的三维人体姿态与形状估计性能,且在拟合过程中无需对性别或姿态做出任何假设。我们进一步证明,通过引入这些改进的拟合结果,UP-3D数据集可在规模与质量上持续扩展,从而实现大规模部署。相关数据、代码与模型均已公开,供科研使用。
代码仓库
MandyMo/pytorch_HMR
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | SMPLify (dense) | PA-MPJPE: 80.7 |
| 3d-human-pose-estimation-on-humaneva-i | SMPLify (dense) | Mean Reconstruction Error (mm): 74.5 |
| monocular-3d-human-pose-estimation-on-human3 | SMPLify (dense) | PA-MPJPE: 80.7 |
| monocular-3d-human-pose-estimation-on-human3 | SMPLify (dense) | Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |