
摘要
在本研究中,我们提出了首个端到端的基于深度学习的方法,该方法能够从自然环境中的RGB图像预测三维手部形状和姿态。我们的网络由一个深层卷积编码器和一个固定的基于模型的解码器串联组成。给定输入图像以及可选的由独立CNN获得的2D关节检测结果,编码器会预测一组手部和视角参数。解码器包含两个部分:一个是预先计算的具有关节变形的手部模型(articulated mesh deformation hand model),该模型可以从手部参数生成3D网格;另一个是由视角参数控制的重投影模块,该模块将生成的手部投影到图像域中。我们展示了在深度学习框架中利用手部模型中编码的形状和姿态先验知识,可以在标准基准测试中实现最先进的3D姿态预测性能,并且能够生成几何上合理且可信的3D重建结果。此外,我们还证明了通过在自然环境中包含2D关节注释的数据集进行弱监督训练,并结合有限可用数据集中包含3D关节注释的数据集进行完全监督训练,可以实现对自然环境中图像的手部形状和姿态预测的良好泛化能力。
代码仓库
yihui-he/epipolar-transformers
pytorch
GitHub 中提及
boukhayma/3dhand
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | Boukhayma et al. | PA-F@15mm: 0.898 PA-F@5mm: 0.435 PA-MPVPE: 13.0 |