
摘要
近期关于二维姿态估计的研究在公共基准测试中取得了优异的性能,但在工业界的应用仍受到模型参数量庞大和高延迟的困扰。为了弥合这一差距,我们对姿态估计中的关键因素进行了实证研究,包括范式、模型架构、训练策略和部署方法,并基于MMPose提出了一种高性能实时多人姿态估计框架——RTMPose。我们的RTMPose-m在Intel i7-11700 CPU上实现了90帧每秒(FPS)以上的速度,在COCO数据集上的平均精度(AP)达到了75.8%,而在NVIDIA GTX 1660 Ti GPU上则实现了430帧每秒以上的速度。此外,RTMPose-l在COCO-WholeBody数据集上的平均精度为67.0%,并且能够达到130帧每秒以上的速度。为了进一步评估RTMPose在关键实时应用中的能力,我们还报告了其在移动设备上的部署性能。我们的RTMPose-s在搭载Snapdragon 865芯片的移动设备上实现了70帧每秒以上的速度,在COCO数据集上的平均精度达到了72.2%,优于现有的开源库。代码和模型已发布在 https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose。
代码仓库
open-mmlab/mmpose
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-coco-wholebody-1 | RTMPose | WB: 65.3 body: 71.4 face: 88.9 foot: 69.2 hand: 59.0 |
| 2d-human-pose-estimation-on-human-art | RTMPose-s | AP: 0.311 |
| 2d-human-pose-estimation-on-human-art | RTMPose-l | AP (gt bbox): 0.753 Validation AP: 83.5 |
| pose-estimation-on-ochuman | RTMPose(RTMPose-l, GT bounding boxes) | Test AP: 80.3 Validation AP: 80.5 |