4 个月前

重新思考人群中的姿态估计:克服检测信息瓶颈和模糊性

重新思考人群中的姿态估计:克服检测信息瓶颈和模糊性

摘要

个体之间的频繁互动是姿态估计算法面临的一个基本挑战。当前的流程要么使用目标检测器与姿态估计器结合(自上而下的方法),要么首先定位所有身体部位,然后将它们连接起来以预测个体的姿态(自下而上的方法)。然而,当个体紧密互动时,自上而下的方法由于个体重叠而变得难以定义,而自下而上的方法则经常错误地推断出与远处身体部位的连接。因此,我们提出了一种新的流程,称为基于自下而上条件的自上而下姿态估计(Bottom-Up Conditioned Top-Down Pose Estimation, BUCTD),该方法结合了自下而上和自上而下方法的优势。具体而言,我们建议使用一个自下而上的模型作为检测器,该模型除了提供一个估计的边界框外,还提供一个姿态提案,作为条件输入到基于注意力机制的自上而下的模型中。我们在动物和人体姿态估计基准数据集上展示了我们方法的性能和效率。在CrowdPose和OCHuman数据集上,我们的表现显著优于之前的最先进模型。我们在CrowdPose数据集上达到了78.5 AP,在OCHuman数据集上达到了48.5 AP,分别比先前的技术提高了8.6%和7.8%。此外,我们还证明了我们的方法在涉及鱼类和猴子的多动物基准数据集上的性能有显著提升。代码已发布在https://github.com/amathislab/BUCTD。

代码仓库

amathislab/BUCTD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
animal-pose-estimation-on-fish-100HRNet-W48 + Faster R-CNN
mAP: 89.1
animal-pose-estimation-on-fish-100BUCTD-preNet-W48 (DLCRNet)
mAP: 88.7
animal-pose-estimation-on-fish-100BUCTD-preNet-W48 (CID-W32)
mAP: 88.0
animal-pose-estimation-on-marmoset-8kBUCTD-preNet-W48 (CID-W32)
mAP: 93.3
animal-pose-estimation-on-marmoset-8kBUCTD-CoAM-W48 (DLCRNet)
mAP: 91.6
animal-pose-estimation-on-marmoset-8kCID-W32
mAP: 92.5
animal-pose-estimation-on-trimouse-161BUCTD-CoAM-W48 (DLCRNet)
mAP: 99.1
animal-pose-estimation-on-trimouse-161DLCRNet
mAP: 95.8
animal-pose-estimation-on-trimouse-161CID-W32
mAP: 86.8
multi-person-pose-estimation-on-crowdposeBUCTD-W48 (w/cond. input from PETR, and generative sampling)
AP Easy: 83.9
AP Hard: 72.3
AP Medium: 79.0
mAP @0.5:0.95: 78.5
pose-estimation-on-cocoBUCTD (PETR, with generative sampling)
APL: 83.7
APM: 74.2
pose-estimation-on-cocoBUCTD (PETR, with generative sampling)
AP: 77.8
pose-estimation-on-crowdposeBUCTD-W48
AP: 72.9
pose-estimation-on-crowdposeBUCTD-W48 (w/cond. input from PETR)
AP: 76.7
pose-estimation-on-crowdposeBUCTD-W48 (w/cond. input from PETR, and generative sampling)
AP: 78.5
AP Easy: 83.9
AP Hard: 72.3
AP Medium: 79.0
pose-estimation-on-ochumanBUCTD (CID-W32)
Test AP: 47.2
Validation AP: 47.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考人群中的姿态估计:克服检测信息瓶颈和模糊性 | 论文 | HyperAI超神经