
摘要
单目三维人体姿态估计在大规模真实姿态捕捉数据集可用的推动下,近年来受到越来越多关注。然而,现有训练数据的多样性仍然有限,且现有方法在脱离其训练数据集后泛化能力的程度尚不明确。本文针对五种典型人体姿态数据集的组合,系统性地研究了各数据集中存在的多样性差异与偏差,并分析其对跨数据集泛化性能的影响。我们特别关注人体中心坐标系下相机视角分布的系统性差异。基于这一观察,我们提出在传统姿态估计任务之外,增加一个辅助任务——预测相机视角。实验结果表明,同时学习预测视角与姿态的模型,在跨数据集泛化能力方面表现出显著提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-3dpw | Cross Dataset Generalization | MPJPE: 89.7 PA-MPJPE: 65.2 |
| 3d-human-pose-estimation-on-geometric-pose-1 | Cross Dataset Generalization | MPJPE: 53.3 |
| 3d-human-pose-estimation-on-human36m | Cross Dataset Generalization | Average MPJPE (mm): 52 Multi-View or Monocular: Monocular PA-MPJPE: 42.5 Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-mpi-inf-3dhp | Cross Dataset Generalization | MPJPE: 90.3 PCK: 84.3 |
| 3d-human-pose-estimation-on-surreal-1 | Cross Dataset Generalization | MPJPE: 37.1 PCK: 97.3 |
| monocular-3d-human-pose-estimation-on-human3 | cross-dataset-evaluation | Average MPJPE (mm): 52.0 Frames Needed: 1 Need Ground Truth 2D Pose: No Use Video Sequence: No |