
摘要
我们介绍了一种名为SkelFormer的新颖无标记运动捕捉管道,用于多视角人体姿态和形状估计。我们的方法首先利用现成的2D关键点估计器(预训练在大规模野外数据上)来获取3D关节位置。接下来,我们设计了一种基于回归的逆向运动学骨骼变换器,该变换器能够从严重噪声的数据中将关节位置映射到姿态和形状表示。此模块集成了关于姿态空间的先验知识,并在运行时推断出完整的姿态状态。通过分离3D关键点检测和逆向运动学问题,并结合我们骨骼变换器所学习到的表达性表示,提高了我们的方法对未见过的噪声数据的泛化能力。我们在三个公开数据集上评估了我们的方法,在同分布和异分布设置下均表现出色,优于先前的工作。此外,消融实验展示了我们架构中每个模块的影响。最后,我们研究了该方法在处理噪声和严重遮挡情况下的性能,并发现其相对于其他解决方案具有显著的鲁棒性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | SkelFormer (LT) | Average MPJPE (mm): 25.2 Multi-View or Monocular: Multi-View PA-MPJPE: 20.6 Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-human36m | SkelFormer (CPN) | Average MPJPE (mm): 33.5 Multi-View or Monocular: Multi-View PA-MPJPE: 27.8 Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-rich | SkelFormer (HRNet - eval only) | MPJPE: 44.2 MPVPE: 39.9 PA-MPJPE: 35.6 |