
摘要
我们提出一种仅通过单目输入即可重建三维手部形态的方法。该方法名为手部网格恢复(Hand Mesh Recovery, HaMeR),采用全Transformer架构,在手部重建的准确性与鲁棒性方面显著优于以往的工作。HaMeR取得成功的关键在于同时扩大了训练数据规模以及深度网络在手部重建任务中的模型容量。在训练数据方面,我们整合了多个包含二维或三维手部标注的公开数据集;在深度模型方面,我们采用大规模视觉Transformer(Vision Transformer)架构。最终模型在多个主流三维手部姿态基准测试中均持续优于现有基线方法。为进一步评估该设计在非受控场景下的表现,我们对现有的野外(in-the-wild)数据集进行了标注,新增了二维手部关键点标注。基于这一新构建的标注数据集——HInt,我们验证了HaMeR相较于现有方法的显著性能提升。相关代码、数据集及模型均已公开,详见项目主页:https://geopavlakos.github.io/hamer/。
代码仓库
geopavlakos/hamer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-freihand | HaMeR | PA-F@15mm: 0.990 PA-F@5mm: 0.785 PA-MPJPE: 6.0 PA-MPVPE: 5.7 |
| 3d-hand-pose-estimation-on-hint-hand | HaMeR | PCK@0.05 (Ego4D) All: 38.9 PCK@0.05 (Ego4D) Occ: 23.0 PCK@0.05 (Ego4D) Visible: 52.0 PCK@0.05 (New Days) All: 48.0 PCK@0.05 (NewDays) Occ: 27.2 PCK@0.05 (NewDays) Visible: 60.8 PCK@0.05 (VISOR) All: 43.0 PCK@0.05 (VISOR) Occ: 25.9 PCK@0.05 (VISOR) Visible: 56.6 |
| 3d-hand-pose-estimation-on-ho-3d | HaMeR | AUC_J: 0.846 AUC_V: 0.841 F@15mm: 0.980 F@5mm: 0.635 PA-MPJPE (mm): 7.7 PA-MPVPE: 7.9 |