
摘要
在深度卷积网络取得成功之后,最先进的三维人体姿态估计方法主要集中在从原始图像像素直接预测三维关节位置的深度端到端系统上。尽管这些系统的性能非常出色,但通常很难判断其剩余误差是源于有限的二维姿态(视觉)理解,还是由于将二维姿态映射到三维空间时出现的失败。为了理解这些误差来源,我们着手构建一个系统,该系统基于给定的二维关节位置来预测三维位置。令我们惊讶的是,我们发现利用当前技术,“提升”(lifting)真实二维关节位置到三维空间的任务可以以极低的误差率解决:一个相对简单的深度前馈网络在Human3.6M数据集上的表现比之前报道的最佳结果提高了约30%,而Human3.6M是目前最大的公开可用的三维姿态估计基准数据集。此外,使用现成的最先进二维检测器输出作为输入训练我们的系统时,也能获得最先进的结果——这包括了专门为该任务进行端到端训练的一系列系统。我们的研究结果表明,现代深度三维人体姿态估计系统的大部分误差来源于其视觉分析,并为未来进一步提高三维人体姿态估计的技术水平指明了方向。
代码仓库
open-mmlab/mmpose
pytorch
sidify/3d-pose-estimation
tf
GitHub 中提及
sidsunny/human-pose-estimation-mlsp
tf
GitHub 中提及
una-dinosauria/3d-pose-baseline
官方
tf
GitHub 中提及
garyzhao/SemGCN
pytorch
GitHub 中提及
jaroslaw1007/Pose_Baseline_3D_PyTorch
pytorch
GitHub 中提及
zhimingzo/modulated-gcn
pytorch
GitHub 中提及
ZHONGCHUYUN/3d_pose_baseline_tf
tf
GitHub 中提及
happyvictor008/High-order-GNN-LF-iter
pytorch
GitHub 中提及
llSourcell/3D_Pose_Estimation
tf
GitHub 中提及
SJTU-DL-lab/3d-pose-baseline
tf
GitHub 中提及
ailingzengzzz/Split-and-Recombine-Net
pytorch
GitHub 中提及
serviceberry3/3d-pose-baseline_android
tf
GitHub 中提及
denilson020898/baseline_3d_pose
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Simple-baseline | PA-MPJPE: 157.0 | 
| 3d-human-pose-estimation-on-human36m | SIM (GT detections) (MA) | Average MPJPE (mm): 45.5 Using 2D ground-truth joints: Yes | 
| 3d-human-pose-estimation-on-human36m | SIM (SH detections FT) (MA) | Average MPJPE (mm): 62.9 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No | 
| 3d-human-pose-estimation-on-human36m | SIM (SH detections) (MA) | Average MPJPE (mm): 67.5 | 
| 3d-human-pose-estimation-on-humaneva-i | SIM (SH detections) | Mean Reconstruction Error (mm): 24.6 | 
| monocular-3d-human-pose-estimation-on-human3 | SIM (SH detections FT) (MA) | Average MPJPE (mm): 62.9 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |