
摘要
从单视角RGB图像重建三维手部结构极具挑战性,主要源于手部姿态的多样性以及深度信息的模糊性。为了从单目图像中可靠地重建三维手部,当前最先进的方法大多依赖于训练阶段的三维标注数据,但获取三维标注成本高昂。为减轻对标注数据的依赖,本文提出S2HAND——一种自监督的三维手部重建网络,能够联合估计手部姿态、形状、纹理以及相机视角。具体而言,我们通过易于获取的二维关键点检测结果,从输入图像中提取几何线索。为利用这些噪声较大的几何线索训练出精确的手部重建模型,我们引入二维与三维表示之间的一致性,并设计了一组新型损失函数,以合理化神经网络的输出。这是首次证明在无需人工标注的情况下,仍可训练出高精度的三维手部重建网络。实验结果表明,所提方法在仅使用较少监督数据的前提下,性能可与近期完全监督的方法相媲美。
代码仓库
TerenceCYJ/S2HAND
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-ho-3d | S2Hand | AUC_J: 0.773 AUC_V: 0.777 F@15mm: 0.930 F@5mm: 0.450 PA-MPJPE (mm): 11.4 PA-MPVPE: 11.2 |
| 3d-hand-pose-estimation-on-ho-3d-v3 | S2HAND | AUC_J: 0.769 AUC_V: 0.778 F@15mm: 0.932 F@5mm: 0.448 PA-MPJPE: 11.5 PA-MPVPE: 11.1 |