4 个月前

一种简单而有效的三维人体姿态估计基线方法

一种简单而有效的三维人体姿态估计基线方法

摘要

在深度卷积网络取得成功之后,最先进的三维人体姿态估计方法主要集中在从原始图像像素直接预测三维关节位置的深度端到端系统上。尽管这些系统的性能非常出色,但通常很难判断其剩余误差是源于有限的二维姿态(视觉)理解,还是由于将二维姿态映射到三维空间时出现的失败。为了理解这些误差来源,我们着手构建一个系统,该系统基于给定的二维关节位置来预测三维位置。令我们惊讶的是,我们发现利用当前技术,“提升”(lifting)真实二维关节位置到三维空间的任务可以以极低的误差率解决:一个相对简单的深度前馈网络在Human3.6M数据集上的表现比之前报道的最佳结果提高了约30%,而Human3.6M是目前最大的公开可用的三维姿态估计基准数据集。此外,使用现成的最先进二维检测器输出作为输入训练我们的系统时,也能获得最先进的结果——这包括了专门为该任务进行端到端训练的一系列系统。我们的研究结果表明,现代深度三维人体姿态估计系统的大部分误差来源于其视觉分析,并为未来进一步提高三维人体姿态估计的技术水平指明了方向。

代码仓库

sidify/3d-pose-estimation
tf
GitHub 中提及
una-dinosauria/3d-pose-baseline
官方
tf
GitHub 中提及
garyzhao/SemGCN
pytorch
GitHub 中提及
zhimingzo/modulated-gcn
pytorch
GitHub 中提及
denilson020898/baseline_3d_pose
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-human-pose-estimation-on-3dpwSimple-baseline
PA-MPJPE: 157.0
3d-human-pose-estimation-on-human36mSIM (GT detections) (MA)
Average MPJPE (mm): 45.5
Using 2D ground-truth joints: Yes
3d-human-pose-estimation-on-human36mSIM (SH detections FT) (MA)
Average MPJPE (mm): 62.9
Multi-View or Monocular: Monocular
Using 2D ground-truth joints: No
3d-human-pose-estimation-on-human36mSIM (SH detections) (MA)
Average MPJPE (mm): 67.5
3d-human-pose-estimation-on-humaneva-iSIM (SH detections)
Mean Reconstruction Error (mm): 24.6
monocular-3d-human-pose-estimation-on-human3SIM (SH detections FT) (MA)
Average MPJPE (mm): 62.9
Frames Needed: 1
Need Ground Truth 2D Pose: No
Use Video Sequence: No

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供