SaleemMuhammad Usama ; PinyoanuntapongEkkasit ; PatelMayur Jagdishbhai ; XueHongfei ; HelmyAhmed ; DasSrijan ; WangPu

摘要
从单张RGB图像重建三维手部网格是一项具有挑战性的任务,原因在于手部的复杂关节运动、自遮挡以及深度不确定性。传统的判别方法通过学习从二维图像到单一三维网格的确定性映射,往往难以应对二维到三维映射中的固有模糊性。为了解决这一挑战,我们提出了一种名为MaskHand的新颖生成式掩码模型,该模型通过学习和采样模糊的2D到3D映射过程的概率分布来合成合理的三维手部网格。MaskHand包含两个关键组件:(1) VQ-MANO,它在潜在空间中将三维手部关节运动编码为离散的姿态标记;(2) 上下文引导的掩码变换器(Context-Guided Masked Transformer),该变换器随机屏蔽姿态标记并学习它们的联合分布,条件包括受损的标记序列、图像上下文和二维姿态提示。这种学习到的分布有助于在推理过程中进行置信度引导的采样,从而生成低不确定性和高精度的网格重建。在基准数据集和真实世界数据集上的广泛评估表明,MaskHand在三维手部网格重建方面达到了最先进的准确性、鲁棒性和真实性。项目网站:https://m-usamasaleem.github.io/publication/MaskHand/MaskHand.html。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-dexycb | MaskHand | Average MPJPE (mm): 11.7 MPVPE: 11.2 PA-MPVPE: 4.9 Procrustes-Aligned MPJPE: 5.0 |
| 3d-hand-pose-estimation-on-freihand | MaskHand | PA-F@15mm: 0.991 PA-F@5mm: 0.801 PA-MPJPE: 5.5 PA-MPVPE: 5.4 |
| 3d-hand-pose-estimation-on-hint-hand | MaskHand | PCK@0.05 (Ego4D) All: 46.4 PCK@0.05 (Ego4D) Occ: 29.4 PCK@0.05 (Ego4D) Visible: 59.3 PCK@0.05 (New Days) All: 48.7 PCK@0.05 (NewDays) Occ: 29.4 PCK@0.05 (NewDays) Visible: 61.0 PCK@0.05 (VISOR) All: 46.1 PCK@0.05 (VISOR) Occ: 31.4 PCK@0.05 (VISOR) Visible: 62.1 |
| 3d-hand-pose-estimation-on-ho-3d-v3 | MaskHand | AUC_J: 0.860 AUC_V: 0.860 F@15mm: 0.984 F@5mm: 0.663 PA-MPJPE: 7.0 PA-MPVPE: 7.0 |