
摘要
从单张图像中进行多人3D人体姿态估计是一项极具挑战性的任务,尤其在真实场景(in-the-wild)下,由于缺乏3D标注数据,问题更为复杂。本文提出HG-RCNN,一种基于Mask R-CNN架构的网络,并融合了Hourglass网络结构的优势,用于实现多人3D人体姿态估计。该方法采用两阶段策略:首先在每个感兴趣区域(Region of Interest, RoI)内估计2D关键点,随后将这些关键点提升至3D空间。最后,通过弱透视投影假设,结合焦距与根关节平移量的联合优化,将估计得到的3D姿态映射到相机坐标系中。所提出的HG-RCNN结构简洁且模块化,无需依赖任何多人3D姿态标注数据集。尽管模型结构简单,HG-RCNN在MuPoTS-3D数据集上仍取得了当前最优的性能表现,同时能够准确估计出位于相机坐标系中的3D人体姿态。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-multi-person-human-pose-estimation-on | HG-RCNN | 3DPCK: 74.2 |