
摘要
近年来,多人姿态估计领域取得了显著进展,尤其是随着卷积神经网络的发展。然而,仍有许多具有挑战性的情况尚未得到有效解决,例如被遮挡的关键点、不可见的关键点以及复杂的背景。在本文中,我们提出了一种新的网络结构——级联金字塔网络(Cascaded Pyramid Network, CPN),旨在缓解这些“难”关键点带来的问题。具体而言,我们的算法包括两个阶段:GlobalNet 和 RefineNet。GlobalNet 是一种特征金字塔网络,能够成功定位诸如眼睛和手等“简单”关键点,但在精确识别被遮挡或不可见的关键点方面可能表现不佳。RefineNet 则通过整合来自 GlobalNet 的所有层级的特征表示,并结合在线难关键点挖掘损失函数,显式地处理这些“难”关键点。总体而言,为了解决多人姿态估计问题,我们采用了自上而下的流程:首先基于检测器生成一组人体边界框,然后使用我们的 CPN 对每个边界框中的关键点进行定位。根据所提出的算法,在 COCO 关键点基准测试中,我们在 COCO test-dev 数据集上的平均精度达到了 73.0,在 COCO test-challenge 数据集上的平均精度达到了 72.1,相比 COCO 2016 关键点挑战赛的 60.5 提高了 19% 的相对性能。代码(https://github.com/chenyilun95/tf-cpn.git)和检测结果已公开发布,供进一步研究使用。
代码仓库
chenyilun95/tf-cpn
官方
tf
GitHub 中提及
tuvovan/CPN_KR
tf
GitHub 中提及
Cli98/pytorch-cpn
pytorch
GitHub 中提及
caiyuanhao1998/RSN
pytorch
GitHub 中提及
megvii-detection/MSPN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-coco | CPN+ | Test AP: 73.0 |
| keypoint-detection-on-coco-test-challenge | CPN+ | AP: 72.1 AP50: 90.5 AP75: 78.9 APL: 84.7 AR: 78.7 AR50: 94.7 AR75: 84.8 ARL: 78.1 ARM: 74.3 |
| keypoint-detection-on-coco-test-dev | CPN | AP50: 91.4 AP75: 80.0 APL: 77.2 APM: 68.7 AR: 78.5 AR50: 95.1 AR75: 85.3 ARL: 84.3 ARM: 74.2 |
| keypoint-detection-on-coco-test-dev | CPN+ | AP50: 91.7 AP75: 80.9 APL: 78.1 APM: 69.5 AR: 79.0 AR50: 95.1 AR75: 85.9 ARL: 84.6 ARM: 74.8 |
| multi-person-pose-estimation-on-coco | CPN+ | AP: 0.730 |
| pose-estimation-on-coco-test-dev | CPN | AP: 72.1 AP50: 91.4 AP75: 80.0 APL: 77.2 AR: 78.5 |
| pose-estimation-on-coco-test-dev | CPN+ [6, 9] | AP: 73.0 AP50: 91.7 AP75: 80.9 APL: 78.1 AR: 79.0 |