
摘要
从单个RGB图像进行3D姿态估计的一个主要挑战是获取足够的训练数据。特别是,收集包含无约束图像且标注有精确3D姿态的大规模训练数据是不可行的。因此,我们提出使用两个独立的训练源。第一个训练源由标注了2D姿态的图像组成,第二个训练源则由精确的3D动作捕捉数据构成。为了整合这两个来源的数据,我们提出了一种双源方法,该方法将2D姿态估计与高效、稳健的3D姿态检索相结合。在实验中,我们展示了该方法达到了当前最先进的结果,并且即使在两个来源的骨骼结构存在显著差异的情况下,其性能依然具有竞争力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-human-pose-estimation-on-human36m | Dual-source approach | Average MPJPE (mm): 97.39 PA-MPJPE: 108.3 Using 2D ground-truth joints: Yes |
| 3d-human-pose-estimation-on-humaneva-i | Dual-source approach | Mean Reconstruction Error (mm): 38.9 |