3 个月前

多实例姿态网络:重新思考自顶向下的姿态估计

多实例姿态网络:重新思考自顶向下的姿态估计

摘要

自上而下的人体姿态估计方法的一个关键假设是:输入的边界框内仅包含单一人体实例。这一假设在人群密集且存在遮挡的场景中往往导致性能下降。为此,本文提出一种新颖的解决方案,以克服该基本假设的局限性。我们提出的多实例姿态网络(Multi-Instance Pose Network, MIPNet)能够在一个给定的边界框内同时预测多个2D姿态实例。为此,我们设计了一种多实例调制模块(Multi-Instance Modulation Block, MIMB),该模块可自适应地为每个姿态实例调节通道维度上的特征响应,同时保持参数高效性。我们在COCO、CrowdPose和OCHuman三个基准数据集上验证了所提方法的有效性。具体而言,在CrowdPose测试集上达到70.0 AP,在OCHuman测试集上达到42.5 AP,相较于现有方法分别提升了2.4 AP和6.5 AP。当使用真实边界框进行推理时,MIPNet在COCO、CrowdPose和OCHuman验证集上分别相较HRNet提升了0.7 AP、0.9 AP和9.1 AP。值得注意的是,当仅使用数量较少但置信度较高的边界框时,HRNet在OCHuman数据集上的性能显著下降(下降5 AP),而MIPNet则表现出相对稳定的性能,仅下降1 AP,展现出更强的鲁棒性。

代码仓库

rawalkhirodkar/MIPNet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
2d-human-pose-estimation-on-ochumanHRNet-W48
Test AP: 37.2
Validation AP: 37.8
2d-human-pose-estimation-on-ochumanMIPNet (HRNet-W48)
Test AP: 42.5
Validation AP: 42.0
keypoint-detection-on-cocoMIPNet(384x288)
Test AP: 75.7
Validation AP: 76.3
keypoint-detection-on-ochumanMIPNet (HRNet-W48)
Test AP: 42.5
Validation AP: 42.0
keypoint-detection-on-ochumanHRNet-W48
Test AP: 37.2
Validation AP: 37.8
multi-person-pose-estimation-on-crowdposeMIPNet (HRNet-W48)
AP Easy: 78.1
AP Hard: 59.4
AP Medium: 71.1
mAP @0.5:0.95: 70.0
multi-person-pose-estimation-on-ochumanMIPNet (gt-bb)
AP50: 89.7
AP75: 80.1
Validation AP: 74.1
pose-estimation-on-coco-test-devMIPNet
AP: 75.7
AP50: 92.4
AP75: 83.3
APL: 81.2
APM: 71.4
AR: 80.5
pose-estimation-on-crowdposeMIPNet (HRNet-W48)
AP: 70.0
AP Hard: 59.4
APM: 71.1
pose-estimation-on-ochumanMIPNet (HRNet-W48)
Test AP: 42.5
Validation AP: 42.0
pose-estimation-on-ochumanHRNet-W48
Test AP: 37.2
Validation AP: 37.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多实例姿态网络:重新思考自顶向下的姿态估计 | 论文 | HyperAI超神经