
摘要
端到端的深度表示学习在单目3D人体姿态估计中取得了显著的精度,然而这些模型在训练数据有限且固定的情况下,可能会对未见过的姿态失效。本文提出了一种新的数据增强方法,该方法具有以下特点:(1) 可扩展性,用于生成大量训练数据(超过800万个有效的3D人体姿态及其对应的2D投影),以训练2D到3D网络;(2) 能有效减少数据集偏差。我们的方法基于分层的人体表示和先验知识启发的启发式算法,从有限的数据集中演化出未见过的3D人体骨架。广泛的实验表明,我们的方法不仅在最大的公开基准测试中达到了最先进的精度,而且对未见过和罕见的姿态具有更好的泛化能力。代码、预训练模型和工具可在此HTTPS链接获取。
代码仓库
Nicholasli1995/EvoSkeleton
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | TAG-Net | Average MPJPE (mm): 50.9 Multi-View or Monocular: Monocular Using 2D ground-truth joints: No |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | EvoSkeleton | AUC: 46.1 MPJPE: 99.7 PCK: 81.2 |
| monocular-3d-human-pose-estimation-on-human3 | TAG-Net | Average MPJPE (mm): 50.9 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |
| weakly-supervised-3d-human-pose-estimation-on | Li et al. | 3D Annotations: S1 Average MPJPE (mm): 62.9 Number of Frames Per View: 1 Number of Views: 1 |