摘要
本文提出了一种姿态语法(pose grammar)方法,用于解决从单目RGB图像中进行3D人体姿态估计的问题。我们的模型以估计得到的2D姿态作为输入,学习一种通用的2D-3D映射函数,从而推导出对应的3D姿态。所提出的模型由一个基础网络和其上方的一系列双向循环神经网络(Bi-directional RNNs, BRNNs)构成:基础网络高效地捕捉与姿态对齐的特征,而上层的多级BRNN结构则显式地引入了关于人体结构配置的先验知识(如运动学约束、对称性、运动协调性),从而在建模过程中施加高层语义约束。在训练过程中,我们设计了一种数据增强算法,进一步提升了模型对外观变化的鲁棒性以及跨视角的泛化能力。我们在公开的3D人体姿态基准数据集上验证了所提方法的有效性,并提出了一种新的跨视角评估协议,用于检验不同方法在跨视角场景下的泛化性能。实验结果表明,在此类设置下,大多数当前最先进的方法均面临显著挑战,而我们的方法能够有效应对这些困难,展现出优越的泛化能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-humaneva-i | 3D Pose Grammar Network | Mean Reconstruction Error (mm): 22.9 |