WangJian ; CaoZhe ; LuvizonDiogo ; LiuLingjie ; SarkarKripasindhu ; TangDanhang ; BeelerThabo ; TheobaltChristian

摘要
在这项工作中,我们探讨了使用单个鱼眼相机进行以自我为中心的全身运动捕捉,该方法同时估计人体和手部运动。这一任务由于三个因素而面临显著挑战:缺乏高质量的数据集、鱼眼相机畸变以及人体自遮挡。为了解决这些挑战,我们提出了一种新颖的方法,利用FisheyeViT提取鱼眼图像特征,随后将这些特征转换为像素对齐的3D热图表示,用于3D人体姿态预测。对于手部跟踪,我们引入了专门的手部检测和手部姿态估计网络来回归3D手部姿态。最后,我们开发了一个基于扩散模型的全身运动先验模型,以在考虑关节不确定性的同时精炼估计的全身运动。为了训练这些网络,我们收集了一个大型合成数据集EgoWholeBody,包含840,000张高质量的以自我为中心的图像,涵盖了多种全身运动序列。定量和定性评估表明,我们的方法在从单个以自我为中心的相机生成高质量的全身运动估计方面具有有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| egocentric-pose-estimation-on-globalegomocap | EgoWholeMocap-Temporal | Average MPJPE (mm): 65.83 PA-MPJPE: 53.47 |
| egocentric-pose-estimation-on-globalegomocap | EgoWholeMocap-Single Frame | Average MPJPE (mm): 68.59 PA-MPJPE: 55.92 |
| egocentric-pose-estimation-on-sceneego | EgoWholeMocap-Single Frame | Average MPJPE (mm): 64.19 PA-MPJPE: 50.06 |
| egocentric-pose-estimation-on-sceneego | EgoWholeMocap-Temporal | Average MPJPE (mm): 57.59 PA-MPJPE: 46.55 |