
摘要
多人姿态估计在图像和视频中是一项重要而具有挑战性的任务,拥有广泛的应用。尽管卷积神经网络的发展极大地提升了人体姿态估计的性能,但在许多困难情况下,即使是最先进的模型也难以准确地定位所有身体关节。这激发了对额外精炼步骤的需求,以解决这些挑战性问题,并且可以轻松应用于任何现有方法之上。在本研究中,我们提出了一种姿态精炼网络(PoseRefiner),该网络同时接收图像和给定的姿态估计作为输入,并通过联合推理输入输出空间来直接预测一个更精确的姿态。为了使网络能够学习如何修正错误的身体关节预测,我们在训练过程中采用了新颖的数据增强方案,模拟“困难”的人体姿态情况。我们在四个流行的大型姿态估计基准数据集上评估了我们的方法,包括MPII单人和多人姿态估计、PoseTrack姿态估计和PoseTrack姿态跟踪,并报告了相对于现有最先进方法的系统性改进。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-mpii-multi-person | Refine | mAP@0.5: 78% |
| multi-person-pose-estimation-and-tracking-on-1 | Refine | MOTA: 58.4 |
| multi-person-pose-estimation-on-mpii-multi | Refine | AP: 78% |
| multi-person-pose-estimation-on-posetrack2018 | Refine | Mean mAP: 73.8 |
| pose-estimation-on-mpii-single-person | Refine | PCKh@0.5: 92.1 |