
摘要
从单目RGB图像中估计三维姿态和形状(以网格形式)是一项具有挑战性的任务。显然,这比仅以骨架或热图形式估计三维姿态更为困难。当涉及交互的人物时,由于人物之间的遮挡引入的不确定性,三维网格重建变得更加复杂。为了解决这些挑战,我们提出了一种由粗到精的流水线方法,该方法受益于1)抗遮挡的三维骨架估计中的逆运动学技术和2)基于Transformer的关系感知细化技术。在我们的流水线中,首先从RGB图像中获取多个抗遮挡的三维骨架。然后,应用逆运动学将估计的骨架转换为可变形的三维网格参数。最后,应用基于Transformer的网格细化技术,考虑三维网格内部和人物之间的关系来优化获得的网格参数。通过广泛的实验,我们证明了该方法的有效性,并在3DPW、MuPoTS和AGORA数据集上超越了现有最先进的方法。
代码仓库
JunukCha/MultiPerson
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Multi-Person 3D Pose and Shape Estimation via Inverse Kinematics and Refinement | MPJPE: 66.0 MPVPE: 76.3 PA-MPJPE: 39.0 |
| 3d-human-pose-estimation-on-agora | Multi-Person 3D Pose and Shape Estimationvia Inverse Kinematics and Refinement | B-MPJPE: 91.6 B-MVE: 86.7 B-NMJE: 110.4 B-NMVE: 104.5 |
| 3d-multi-person-human-pose-estimation-on | Multi-Person 3D Pose and Shape Estimation via Inverse Kinematics and Refinement | 3DPCK: 89.9 |