
摘要
我们提出了一种基于多视角相机系统和每个视角的2D人体姿态估计的单人3D人体姿态估计自监督学习算法。为了训练我们的模型(由深度神经网络表示),我们提出了一种四损失函数的学习算法,该算法不需要任何2D或3D人体姿态的真实标签。所提出的损失函数利用了多视角几何原理来重建3D人体姿态估计,并在不同相机视图之间施加人体姿态约束。我们的方法在训练过程中利用了所有可用的相机视图,而在推理阶段则仅使用单个视图。在评估中,我们在Human3.6M和HumanEva基准数据集上展示了有前景的性能,并且还在MPI-INF-3DHP数据集上进行了泛化研究,以及提供了多个消融实验结果。总体而言,我们的方法超越了所有自监督学习方法,并达到了与监督和弱监督学习方法相当的结果。我们的代码和模型已公开发布。
代码仓库
vru2020/Pose_3D
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | 2D-3D Lifting self-supervised | Average MPJPE (mm): 62.0 Multi-View or Monocular: Multi-View Using 2D ground-truth joints: No |
| weakly-supervised-3d-human-pose-estimation-on | 2D-3D Lifting self-supervised | 3D Annotations: No Average MPJPE (mm): 62.0 Number of Frames Per View: 1 Number of Views: 1 |