4 个月前

级联金字塔网络用于多人姿态估计

级联金字塔网络用于多人姿态估计

摘要

近年来,多人姿态估计领域取得了显著进展,尤其是随着卷积神经网络的发展。然而,仍有许多具有挑战性的情况尚未得到有效解决,例如被遮挡的关键点、不可见的关键点以及复杂的背景。在本文中,我们提出了一种新的网络结构——级联金字塔网络(Cascaded Pyramid Network, CPN),旨在缓解这些“难”关键点带来的问题。具体而言,我们的算法包括两个阶段:GlobalNet 和 RefineNet。GlobalNet 是一种特征金字塔网络,能够成功定位诸如眼睛和手等“简单”关键点,但在精确识别被遮挡或不可见的关键点方面可能表现不佳。RefineNet 则通过整合来自 GlobalNet 的所有层级的特征表示,并结合在线难关键点挖掘损失函数,显式地处理这些“难”关键点。总体而言,为了解决多人姿态估计问题,我们采用了自上而下的流程:首先基于检测器生成一组人体边界框,然后使用我们的 CPN 对每个边界框中的关键点进行定位。根据所提出的算法,在 COCO 关键点基准测试中,我们在 COCO test-dev 数据集上的平均精度达到了 73.0,在 COCO test-challenge 数据集上的平均精度达到了 72.1,相比 COCO 2016 关键点挑战赛的 60.5 提高了 19% 的相对性能。代码(https://github.com/chenyilun95/tf-cpn.git)和检测结果已公开发布,供进一步研究使用。

代码仓库

chenyilun95/tf-cpn
官方
tf
GitHub 中提及
tuvovan/CPN_KR
tf
GitHub 中提及
Cli98/pytorch-cpn
pytorch
GitHub 中提及
caiyuanhao1998/RSN
pytorch
GitHub 中提及
megvii-detection/MSPN
pytorch
GitHub 中提及

基准测试

基准方法指标
keypoint-detection-on-cocoCPN+
Test AP: 73.0
keypoint-detection-on-coco-test-challengeCPN+
AP: 72.1
AP50: 90.5
AP75: 78.9
APL: 84.7
AR: 78.7
AR50: 94.7
AR75: 84.8
ARL: 78.1
ARM: 74.3
keypoint-detection-on-coco-test-devCPN
AP50: 91.4
AP75: 80.0
APL: 77.2
APM: 68.7
AR: 78.5
AR50: 95.1
AR75: 85.3
ARL: 84.3
ARM: 74.2
keypoint-detection-on-coco-test-devCPN+
AP50: 91.7
AP75: 80.9
APL: 78.1
APM: 69.5
AR: 79.0
AR50: 95.1
AR75: 85.9
ARL: 84.6
ARM: 74.8
multi-person-pose-estimation-on-cocoCPN+
AP: 0.730
pose-estimation-on-coco-test-devCPN
AP: 72.1
AP50: 91.4
AP75: 80.0
APL: 77.2
AR: 78.5
pose-estimation-on-coco-test-devCPN+ [6, 9]
AP: 73.0
AP50: 91.7
AP75: 80.9
APL: 78.1
AR: 79.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
级联金字塔网络用于多人姿态估计 | 论文 | HyperAI超神经