
摘要
我们提出了一种无框自底向上的方法,用于多人图像中的人体姿态估计和实例分割任务,该方法采用高效的单次模型。所提出的PersonLab模型通过基于部件的建模方法解决了语义级推理和对象部件关联问题。我们的模型使用了一个卷积网络,该网络学会了检测各个关键点并预测它们之间的相对位移,从而使得我们可以将关键点分组为人体姿态实例。此外,我们提出了一种由部件诱导的几何嵌入描述符,这使得我们可以将语义级别的人员像素与其对应的人体实例关联起来,实现实例级别的人员分割。我们的系统基于全卷积架构,允许高效推断,其运行时间基本上与场景中出现的人数无关。仅在COCO数据上训练,我们的系统在单尺度推断下达到了COCO测试开发集的关键点平均精度0.665,在多尺度推断下达到了0.687,显著优于所有先前的自底向上姿态估计系统。我们也是首个在COCO实例分割任务中报告具有竞争力结果的自底向上方法,在人员类别中的平均精度达到了0.417。
代码仓库
SAtacker/PosenetTflite
tf
GitHub 中提及
google-coral/project-posenet
tf
GitHub 中提及
jp-sm/jp-sm.github.io
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-coco | PersonLab | Test AP: 66.5 |
| multi-person-pose-estimation-on-coco-test-dev | PersonLab | AP: 68.7 AP50: 89.0 AP75: 75.4 APL: 75.5 APM: 64.1 |