
摘要
本文提出了一种基于扩散的3D姿态估计(D3DP)方法,结合了关节重投影多假设聚合(JPMA),用于概率性的3D人体姿态估计。一方面,D3DP为单一的2D观测生成多个可能的3D姿态假设。该方法逐步将真实3D姿态扩散到随机分布中,并学习一个以2D关键点为条件的去噪器来恢复未受污染的3D姿态。所提出的D3DP与现有的3D姿态估计器兼容,并通过两个可定制参数支持用户在推理过程中平衡效率和准确性。另一方面,提出了JPMA将由D3DP生成的多个假设整合为一个适用于实际应用的3D姿态。它将3D姿态假设重新投影到2D相机平面上,根据重投影误差逐关节选择最佳假设,并将选定的关节组合成最终的姿态。所提出的JPMA在关节层面进行聚合,并利用2D先验信息,这两点均被以往的方法所忽视。在Human3.6M和MPI-INF-3DHP数据集上的大量实验表明,我们的方法分别优于当前最先进的确定性和概率性方法1.5%和8.9%。代码可在https://github.com/paTRICK-swk/D3DP 获取。
代码仓库
patrick-swk/d3dp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | D3DP | #Frames: 243 Average MPJPE (mm): 19.6 Multi-View or Monocular: Monocular Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | D3DP (N=243, H=20, K=20, J-Agg) | AUC: 78.2 MPJPE: 29.7 PCK: 97.7 |
| monocular-3d-human-pose-estimation-on-human3 | D3DP | 2D detector: CPN Average MPJPE (mm): 39.5 Frames Needed: 243 Need Ground Truth 2D Pose: No Use Video Sequence: Yes |
| multi-hypotheses-3d-human-pose-estimation-on | D3DP | Average MPJPE (mm): 35.4 Using 2D ground-truth joints: No |