
摘要
从二维关节点恢复三维人体姿态是一个高度欠约束的问题。本文提出一种新颖的神经网络框架——PoseNet3D,该框架以二维关节点作为输入,输出三维骨骼结构及SMPL人体模型参数。通过将学习过程构建在师生协作(student-teacher)框架下,我们在训练过程中完全避免使用任何三维数据,包括配对或非配对的三维数据、动作捕捉序列、深度图像或多视角图像。首先,我们仅利用二维姿态数据训练一个教师网络,使其输出三维骨骼结构;随后,教师网络将其所学知识蒸馏(distill)给一个学生网络,该学生网络负责预测以SMPL表示的三维姿态。最后,通过引入时间一致性、自一致性以及对抗性损失,对教师网络和学生网络进行端到端的联合微调,从而进一步提升两者的预测精度。在Human3.6M数据集上的三维人体姿态估计实验结果表明,与以往无监督方法相比,本方法将三维关节点预测误差降低了18%。在真实场景(in-the-wild)数据集上的定性结果也表明,恢复得到的三维姿态和人体网格具有自然、逼真的外观,并在连续帧之间呈现出平滑流畅的运动效果。
代码仓库
dizhongzhu/Humanbody_Literatures
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | PoseNet3D | PA-MPJPE: 63.2 |
| 3d-human-pose-estimation-on-human36m | PoseNet3D (GT) | Average MPJPE (mm): 47.0 |
| 3d-human-pose-estimation-on-human36m | PoseNet3D | Average MPJPE (mm): 59.4 |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | PoseNet3D | AUC: 43.2 MPJPE: 102.4 PCK: 81.9 |