
摘要
自上而下的人体姿态估计方法的一个关键假设是:输入的边界框内仅包含单一人体实例。这一假设在人群密集且存在遮挡的场景中往往导致性能下降。为此,本文提出一种新颖的解决方案,以克服该基本假设的局限性。我们提出的多实例姿态网络(Multi-Instance Pose Network, MIPNet)能够在一个给定的边界框内同时预测多个2D姿态实例。为此,我们设计了一种多实例调制模块(Multi-Instance Modulation Block, MIMB),该模块可自适应地为每个姿态实例调节通道维度上的特征响应,同时保持参数高效性。我们在COCO、CrowdPose和OCHuman三个基准数据集上验证了所提方法的有效性。具体而言,在CrowdPose测试集上达到70.0 AP,在OCHuman测试集上达到42.5 AP,相较于现有方法分别提升了2.4 AP和6.5 AP。当使用真实边界框进行推理时,MIPNet在COCO、CrowdPose和OCHuman验证集上分别相较HRNet提升了0.7 AP、0.9 AP和9.1 AP。值得注意的是,当仅使用数量较少但置信度较高的边界框时,HRNet在OCHuman数据集上的性能显著下降(下降5 AP),而MIPNet则表现出相对稳定的性能,仅下降1 AP,展现出更强的鲁棒性。
代码仓库
rawalkhirodkar/MIPNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-ochuman | HRNet-W48 | Test AP: 37.2 Validation AP: 37.8 |
| 2d-human-pose-estimation-on-ochuman | MIPNet (HRNet-W48) | Test AP: 42.5 Validation AP: 42.0 |
| keypoint-detection-on-coco | MIPNet(384x288) | Test AP: 75.7 Validation AP: 76.3 |
| keypoint-detection-on-ochuman | MIPNet (HRNet-W48) | Test AP: 42.5 Validation AP: 42.0 |
| keypoint-detection-on-ochuman | HRNet-W48 | Test AP: 37.2 Validation AP: 37.8 |
| multi-person-pose-estimation-on-crowdpose | MIPNet (HRNet-W48) | AP Easy: 78.1 AP Hard: 59.4 AP Medium: 71.1 mAP @0.5:0.95: 70.0 |
| multi-person-pose-estimation-on-ochuman | MIPNet (gt-bb) | AP50: 89.7 AP75: 80.1 Validation AP: 74.1 |
| pose-estimation-on-coco-test-dev | MIPNet | AP: 75.7 AP50: 92.4 AP75: 83.3 APL: 81.2 APM: 71.4 AR: 80.5 |
| pose-estimation-on-crowdpose | MIPNet (HRNet-W48) | AP: 70.0 AP Hard: 59.4 APM: 71.1 |
| pose-estimation-on-ochuman | MIPNet (HRNet-W48) | Test AP: 42.5 Validation AP: 42.0 |
| pose-estimation-on-ochuman | HRNet-W48 | Test AP: 37.2 Validation AP: 37.8 |