7 个月前

摘要

近年来，多人姿态估计领域取得了显著进展，尤其是随着卷积神经网络的发展。然而，仍有许多具有挑战性的情况尚未得到有效解决，例如被遮挡的关键点、不可见的关键点以及复杂的背景。在本文中，我们提出了一种新的网络结构——级联金字塔网络（Cascaded Pyramid Network, CPN），旨在缓解这些“难”关键点带来的问题。具体而言，我们的算法包括两个阶段：GlobalNet 和 RefineNet。GlobalNet 是一种特征金字塔网络，能够成功定位诸如眼睛和手等“简单”关键点，但在精确识别被遮挡或不可见的关键点方面可能表现不佳。RefineNet 则通过整合来自 GlobalNet 的所有层级的特征表示，并结合在线难关键点挖掘损失函数，显式地处理这些“难”关键点。总体而言，为了解决多人姿态估计问题，我们采用了自上而下的流程：首先基于检测器生成一组人体边界框，然后使用我们的 CPN 对每个边界框中的关键点进行定位。根据所提出的算法，在 COCO 关键点基准测试中，我们在 COCO test-dev 数据集上的平均精度达到了 73.0，在 COCO test-challenge 数据集上的平均精度达到了 72.1，相比 COCO 2016 关键点挑战赛的 60.5 提高了 19% 的相对性能。代码（https://github.com/chenyilun95/tf-cpn.git）和检测结果已公开发布，供进一步研究使用。

源 PDF