4 个月前

Hamba:基于图引导双扫描的单视图3D手部重建

Hamba:基于图引导双扫描的单视图3D手部重建

摘要

从单张RGB图像中重建3D手部模型具有挑战性,主要原因是关节运动、自遮挡以及与物体的交互。现有的最先进(SOTA)方法采用基于注意力机制的变压器来学习3D手部姿态和形状,但它们尚未完全实现稳健且精确的性能,主要是因为对关节之间空间关系的建模效率较低。为了解决这一问题,我们提出了一种新颖的图引导Mamba框架,命名为Hamba,该框架将图学习和状态空间建模相结合。我们的核心思想是将Mamba的扫描过程重新设计为图引导的双向扫描,以使用少量有效的标记进行3D重建。这使得我们能够高效地学习关节之间的空间关系,从而提高重建性能。具体而言,我们设计了一个图引导状态空间(GSS)模块,该模块学习图结构的关系和关节的空间序列,并且使用的标记比基于注意力的方法减少了88.5%。此外,我们通过融合模块整合了状态空间特征和全局特征。通过利用GSS模块和融合模块,Hamba有效地利用了图引导的状态空间特征,并综合考虑了全局和局部特征以提升性能。在多个基准测试和野外测试中的实验表明,Hamba显著优于现有的最先进方法,在FreiHAND数据集上实现了5.3毫米的PA-MPVPE和0.992的F@15毫米指标。截至本文被接受时,Hamba在两个3D手部重建竞赛排行榜中均位列第一。项目网站:https://humansensinglab.github.io/Hamba/

代码仓库

humansensinglab/Hamba
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-hand-pose-estimation-on-freihandHamba
PA-F@15mm: 0.992
PA-F@5mm: 0.806
PA-MPJPE: 5.7
PA-MPVPE: 5.3
3d-hand-pose-estimation-on-hint-handHamba
PCK@0.05 (New Days) All: 48.7
PCK@0.05 (NewDays) Occ: 28.2
PCK@0.05 (NewDays) Visible: 61.2
PCK@0.05 (VISOR) All: 47.2
PCK@0.05 (VISOR) Occ: 29.9
PCK@0.05 (VISOR) Visible: 61.4
3d-hand-pose-estimation-on-ho-3dHamba
AUC_J: 0.850
AUC_V: 0.846
F@15mm: 0.982
F@5mm: 0.648
PA-MPJPE (mm): 7.5
PA-MPVPE: 7.7
3d-hand-pose-estimation-on-ho-3d-v3Hamba
AUC_J: 0.861
AUC_V: 0.864
F@15mm: 0.982
F@5mm: 0.681
PA-MPJPE: 6.9
PA-MPVPE: 6.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Hamba:基于图引导双扫描的单视图3D手部重建 | 论文 | HyperAI超神经