
摘要
本文专注于从单个RGB图像中回归多个3D人体模型。现有的方法大多遵循一个多阶段流程,首先检测出图像中的人体边界框,然后独立地回归每个边界框内的3D身体网格。相比之下,我们提出了一种一次性回归多个3D人体模型的所有网格的方法(简称ROMP)。该方法在概念上简单,无需边界框,并且能够以端到端的方式学习每个像素的表示。我们的方法同时预测一个身体中心热图和一个网格参数图,这两个图可以联合描述像素级别的3D身体网格。通过一个以身体中心为引导的采样过程,可以从网格参数图中轻松提取图像中所有人的身体网格参数。借助这种细粒度的表示,我们的单阶段框架摆脱了复杂的多阶段流程,并且对遮挡更加鲁棒。与现有最先进方法相比,ROMP在具有挑战性的多人基准测试中表现出色,包括3DPW和CMU全景数据集(CMU Panoptic)。在拥挤/遮挡数据集上的实验表明,该方法在各种类型的遮挡下均具有较强的鲁棒性。发布的代码是首个实时实现的单目多人3D网格回归系统。
代码仓库
Arthur151/ROMP
官方
pytorch
GitHub 中提及
cai-jianfeng/ROMP_mindspore
mindspore
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-depth-estimation-on-relative-human | ROMP | PCDR: 54.84 PCDR-Adult: 55.34 PCDR-Baby: 30.08 PCDR-Kid: 48.41 PCDR-Teen: 51.12 mPCDK: 0.866 |
| 3d-human-pose-estimation-on-3d-poses-in-the | ROMP | MPJPE: 81.76 |
| 3d-human-pose-estimation-on-3dpw | ROMP | MPJPE: 76.7 MPVPE: 93.4 PA-MPJPE: 47.3 |
| 3d-human-pose-estimation-on-cmu-panoptic | ROMP (ResNet-50) | Average MPJPE (mm): 127.6 |
| 3d-human-pose-estimation-on-emdb | ROMP | Average MPJAE (deg): 26.5975 Average MPJAE-PA (deg): 23.9901 Average MPJPE (mm): 112.652 Average MPJPE-PA (mm): 75.1869 Average MVE (mm): 134.863 Average MVE-PA (mm): 90.648 Jitter (10m/s^3): 71.2556 |
| 3d-multi-person-mesh-recovery-on-relative | ROMP | PCDR: 68.27 |
| multi-person-pose-estimation-on-crowdpose | ROMP+CAR | mAP @0.5:0.95: 58.6 |
| multi-person-pose-estimation-on-crowdpose | ROMP | mAP @0.5:0.95: 55.6 |