
摘要
我们提出 OmniPose,一种单次通过、端到端可训练的框架,在多人姿态估计任务中取得了当前最优的性能。该框架采用一种新颖的瀑布模块(waterfall module),充分利用多尺度特征表示,显著提升了主干特征提取器的效能,且无需后续处理。OmniPose 在多尺度特征提取器中融合了跨尺度上下文信息,并结合高斯热图调制机制,实现了高精度的人体姿态估计。通过 OmniPose 中改进的瀑布模块所获得的多尺度表示,既继承了级联架构中渐进式滤波的高效性,又保持了与空间金字塔结构相当的多尺度感受野。在多个数据集上的实验结果表明,结合改进的 HRNet 主干网络与瀑布模块的 OmniPose,是一种鲁棒且高效的多人姿态估计架构,能够达到当前最优的性能水平。
代码仓库
bmartacho/OmniPose
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| pose-estimation-on-coco | OmniPose (WASPv2) | AP: 79.5 AP50: 93.6 AP75: 85.9 APL: 84.6 APM: 76 AR: 81.9 |
| pose-estimation-on-coco-test-dev | OmniPose (WASPv2) | AP: 76.4 AP50: 92.6 AP75: 83.7 APL: 82.6 APM: 72.6 AR: 81.2 |
| pose-estimation-on-leeds-sports-poses | OmniPose | PCK: 99.5% |
| pose-estimation-on-mpii | OmniPose (WASPv2) | PCKh@0.2: 92.3 |
| pose-estimation-on-upenn-action | OmniPose | Mean PCK@0.2: 99.4 |