
摘要
个体之间的频繁互动是姿态估计算法面临的一个基本挑战。当前的流程要么使用目标检测器与姿态估计器结合(自上而下的方法),要么首先定位所有身体部位,然后将它们连接起来以预测个体的姿态(自下而上的方法)。然而,当个体紧密互动时,自上而下的方法由于个体重叠而变得难以定义,而自下而上的方法则经常错误地推断出与远处身体部位的连接。因此,我们提出了一种新的流程,称为基于自下而上条件的自上而下姿态估计(Bottom-Up Conditioned Top-Down Pose Estimation, BUCTD),该方法结合了自下而上和自上而下方法的优势。具体而言,我们建议使用一个自下而上的模型作为检测器,该模型除了提供一个估计的边界框外,还提供一个姿态提案,作为条件输入到基于注意力机制的自上而下的模型中。我们在动物和人体姿态估计基准数据集上展示了我们方法的性能和效率。在CrowdPose和OCHuman数据集上,我们的表现显著优于之前的最先进模型。我们在CrowdPose数据集上达到了78.5 AP,在OCHuman数据集上达到了48.5 AP,分别比先前的技术提高了8.6%和7.8%。此外,我们还证明了我们的方法在涉及鱼类和猴子的多动物基准数据集上的性能有显著提升。代码已发布在https://github.com/amathislab/BUCTD。
代码仓库
amathislab/BUCTD
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| animal-pose-estimation-on-fish-100 | HRNet-W48 + Faster R-CNN | mAP: 89.1 |
| animal-pose-estimation-on-fish-100 | BUCTD-preNet-W48 (DLCRNet) | mAP: 88.7 |
| animal-pose-estimation-on-fish-100 | BUCTD-preNet-W48 (CID-W32) | mAP: 88.0 |
| animal-pose-estimation-on-marmoset-8k | BUCTD-preNet-W48 (CID-W32) | mAP: 93.3 |
| animal-pose-estimation-on-marmoset-8k | BUCTD-CoAM-W48 (DLCRNet) | mAP: 91.6 |
| animal-pose-estimation-on-marmoset-8k | CID-W32 | mAP: 92.5 |
| animal-pose-estimation-on-trimouse-161 | BUCTD-CoAM-W48 (DLCRNet) | mAP: 99.1 |
| animal-pose-estimation-on-trimouse-161 | DLCRNet | mAP: 95.8 |
| animal-pose-estimation-on-trimouse-161 | CID-W32 | mAP: 86.8 |
| multi-person-pose-estimation-on-crowdpose | BUCTD-W48 (w/cond. input from PETR, and generative sampling) | AP Easy: 83.9 AP Hard: 72.3 AP Medium: 79.0 mAP @0.5:0.95: 78.5 |
| pose-estimation-on-coco | BUCTD (PETR, with generative sampling) | APL: 83.7 APM: 74.2 |
| pose-estimation-on-coco | BUCTD (PETR, with generative sampling) | AP: 77.8 |
| pose-estimation-on-crowdpose | BUCTD-W48 | AP: 72.9 |
| pose-estimation-on-crowdpose | BUCTD-W48 (w/cond. input from PETR) | AP: 76.7 |
| pose-estimation-on-crowdpose | BUCTD-W48 (w/cond. input from PETR, and generative sampling) | AP: 78.5 AP Easy: 83.9 AP Hard: 72.3 AP Medium: 79.0 |
| pose-estimation-on-ochuman | BUCTD (CID-W32) | Test AP: 47.2 Validation AP: 47.7 |