
摘要
近年来,随着深度卷积神经网络的引入,人体姿态估计取得了显著进展。其众多应用在近年来引起了极大的关注。然而,许多实际应用需要对人群进行姿态估计,这仍然是一个较少被研究的问题。在这项工作中,我们探讨了优化人群姿态估计的方法,重点关注密集人群中带来的挑战,如遮挡、人员之间的近距离以及部分可见的人体。为了解决这些挑战,我们评估了姿态检测方法的三个方面:i) 一种数据增强方法以提高对遮挡的鲁棒性;ii) 遮挡身体部位的显式检测;iii) 合成生成数据集的应用。为了在拥挤场景中提高准确性,第一种方法是在训练时使用来自物体识别数据集COCO(Common Objects in Context)的人物和物体剪辑来生成遮挡。此外,还评估了合成生成的数据集JTA(Joint Track Auto)在真实世界人群应用中的适用性。为了克服JTA由于姿势多样性较低和人群密度不足而产生的迁移差距,创建了一个扩展数据集以简化其在真实世界应用中的使用。另外,利用JTA提供的遮挡标志训练模型,在两个独立分支中显式区分遮挡和可见的身体部位。所提出的基线方法的改进组合有助于将整体准确率提高4.7% AP(平均精度均值),从而在相应数据集上提供了与当前最先进方法相当的结果。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-person-pose-estimation-on-crowdpose | OccNet | AP Easy: 75.2 AP Hard: 53.1 AP Medium: 66.6 mAP @0.5:0.95: 65.5 |