
摘要
本文提出了一种姿态语法(pose grammar)方法,用于解决三维人体姿态估计问题。我们的模型直接以二维姿态作为输入,学习一种通用的二维至三维映射函数。所提出的模型由一个基础网络和其上层的一系列双向循环神经网络(Bi-directional RNN, BRNN)构成:基础网络高效地捕捉与姿态对齐的特征,而上层的BRNN则显式地引入了关于人体结构配置的一系列先验知识(如运动学约束、对称性、运动协调性),从而在建模过程中施加高层次的姿态约束。在训练过程中,我们设计了一种姿态样本模拟器,用于在虚拟摄像机视角下生成额外的训练样本,进一步提升了模型的泛化能力。我们在公开的三维人体姿态基准数据集上验证了所提方法的有效性,并提出了一种新的跨视角评估协议,用以检验不同方法在跨视角场景下的泛化性能。实验结果表明,在此类设置下,大多数现有最先进方法均面临显著挑战,而我们的方法能够有效应对这些难题。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-absolute-human-pose-estimation-on-human36m | Pose Grammar | Average MPJPE (mm): 60.4 |
| 3d-human-pose-estimation-on-human36m | Pose Grammar | Average MPJPE (mm): 60.4 PA-MPJPE: 45.7 |
| 3d-human-pose-estimation-on-humaneva-i | Pose Grammar | Mean Reconstruction Error (mm): 22.9 |