
摘要
我们提出了一种面向第一人称视角的、适用于广泛非受限日常活动场景下的实时三维人体姿态估计方法。该场景面临一系列独特挑战,例如硬件设备的移动性,以及在长时间视频采集过程中对跟踪失败具有快速恢复能力的鲁棒性要求。为应对这些挑战,我们设计了一种新颖的轻量化硬件方案,将普通的棒球帽改造为基于单个帽载鱼眼相机的高质量姿态估计设备。基于捕获的第一人称实时视频流,我们的基于卷积神经网络(CNN)的三维姿态估计方法可在消费级GPU上以60Hz的帧率稳定运行。除创新的硬件设计外,本工作的另一项主要贡献包括:1)一个大规模的、由俯视鱼眼图像构成的真实标注训练数据集;2)一种新型的解耦式三维姿态估计方法,能够充分考虑第一人称视角的独特特性。实验结果表明,与现有基线方法相比,我们的方法在三维关节点误差方面表现更优,同时在二维姿态叠加效果上也更具优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| egocentric-pose-estimation-on-globalegomocap | Mo2Cap2 | Average MPJPE (mm): 102.3 PA-MPJPE: 74.46 |
| egocentric-pose-estimation-on-sceneego | Mo2Cap2 | Average MPJPE (mm): 200.3 PA-MPJPE: 121.2 |