
摘要
本文提出了一种新型的自底向上、单阶段全身体态估计算法,称为“分层关键点回归”(Hierarchical Point Regression,简称 HPRNet)。在标准人体姿态估计任务中,通常需要估计人体约17个主要关节点的位置;而全身体态估计则进一步要求精确预测细粒度关键点,包括面部68个关键点、每只手21个关键点以及每只脚3个关键点,由此带来的关键点尺度差异问题亟需有效解决。为应对不同身体部位间存在的尺度差异,本文构建了分层的关键点表示结构,并联合回归各部位的关键点位置。具体而言,每个身体部位(如面部)内部细粒度关键点的相对位置,是相对于该部位中心位置进行回归的,而该部位中心位置本身又以人物中心为参考进行估计。此外,与现有两阶段方法不同,本方法能够在与图像中人数无关的恒定时间内完成全身体态估计。在 COCO WholeBody 数据集上,HPRNet 在所有全身体态部件(包括身体、脚部、面部和手部)的关键点检测任务中,显著超越了以往所有自底向上的方法;尤其在面部关键点检测(75.4 AP)和手部关键点检测(50.4 AP)两项指标上达到了当前最优水平。代码与模型已开源,获取地址为:\url{https://github.com/nerminsamet/HPRNet}。
代码仓库
nerminsamet/HPRNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 2d-human-pose-estimation-on-coco-wholebody-1 | HPRNet | WB: 34.8 body: 59.4 face: 75.4 foot: 53.0 hand: 50.4 |
| face-detection-on-coco-wholebody | HPRNet (Hourglass-104) | AP: 56.4 AP50: 82.4 AP75: 67.1 APL: 63.3 APM: 43.4 |
| face-detection-on-coco-wholebody | HPRNet (DLA) | AP: 55.8 AP50: 82.3 AP75: 66.2 APL: 63.6 APM: 40 |
| facial-landmark-detection-on-coco-wholebody | HPRNet (DLA) | keypoint AP: 74.6 |
| facial-landmark-detection-on-coco-wholebody | HPRNet (Hourglass-104) | keypoint AP: 75.4 |
| hand-pose-estimation-on-coco-wholebody | HPRNet (DLA) | keypoint AP: 47 |
| hand-pose-estimation-on-coco-wholebody | HPRNet (Hourglass-104) | keypoint AP: 50.4 |
| multi-person-pose-estimation-on-coco-1 | HPRNet (Hourglass-104) | keypoint AP: 59.4 |
| multi-person-pose-estimation-on-coco-1 | HPRNet (DLA) | keypoint AP: 55.2 |