
摘要
从单张RGB图像估计三维手部姿态是一个高度模糊的问题,其性能高度依赖于无偏的训练数据集。本文针对现有数据集上的训练,系统分析了跨数据集的泛化能力。研究发现,现有方法在训练所用数据集上表现良好,但在其他数据集或真实场景(in-the-wild)中泛化能力较差。为此,我们提出了首个大规模、多视角的手部数据集,该数据集同时包含三维手部姿态与手部形状的标注。为对这一真实世界数据集进行标注,我们提出了一种迭代式的半自动化“人机协同”(human-in-the-loop)方法,其中结合了手部拟合优化技术,以同时推断每个样本的三维姿态与形状。实验表明,基于本数据集训练的方法在其他数据集上测试时,均能保持稳定且优异的性能。此外,该数据集使得我们能够训练一个网络,仅凭单张RGB图像即可预测完整的关节化手部形状。该数据集的评测集可作为关节化手部形状估计任务的基准测试标准。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | MANO CNN | PA-F@15mm: 0.934 PA-F@5mm: 0.516 PA-MPJPE: 11.0 PA-MPVPE: 10.9 |
| 3d-hand-pose-estimation-on-freihand | Zimmermann et al. | PA-F@15mm: 0.935 PA-F@5mm: 0.529 PA-MPVPE: 10.7 |