7 个月前

摘要

近年来，随着深度卷积神经网络的引入，人体姿态估计取得了显著进展。其众多应用在近年来引起了极大的关注。然而，许多实际应用需要对人群进行姿态估计，这仍然是一个较少被研究的问题。在这项工作中，我们探讨了优化人群姿态估计的方法，重点关注密集人群中带来的挑战，如遮挡、人员之间的近距离以及部分可见的人体。为了解决这些挑战，我们评估了姿态检测方法的三个方面：i) 一种数据增强方法以提高对遮挡的鲁棒性；ii) 遮挡身体部位的显式检测；iii) 合成生成数据集的应用。为了在拥挤场景中提高准确性，第一种方法是在训练时使用来自物体识别数据集COCO（Common Objects in Context）的人物和物体剪辑来生成遮挡。此外，还评估了合成生成的数据集JTA（Joint Track Auto）在真实世界人群应用中的适用性。为了克服JTA由于姿势多样性较低和人群密度不足而产生的迁移差距，创建了一个扩展数据集以简化其在真实世界应用中的使用。另外，利用JTA提供的遮挡标志训练模型，在两个独立分支中显式区分遮挡和可见的身体部位。所提出的基线方法的改进组合有助于将整体准确率提高4.7% AP（平均精度均值），从而在相应数据集上提供了与当前最先进方法相当的结果。

源 PDF