3 个月前

基于Transformer的三维手部重建

基于Transformer的三维手部重建

摘要

我们提出一种仅通过单目输入即可重建三维手部形态的方法。该方法名为手部网格恢复(Hand Mesh Recovery, HaMeR),采用全Transformer架构,在手部重建的准确性与鲁棒性方面显著优于以往的工作。HaMeR取得成功的关键在于同时扩大了训练数据规模以及深度网络在手部重建任务中的模型容量。在训练数据方面,我们整合了多个包含二维或三维手部标注的公开数据集;在深度模型方面,我们采用大规模视觉Transformer(Vision Transformer)架构。最终模型在多个主流三维手部姿态基准测试中均持续优于现有基线方法。为进一步评估该设计在非受控场景下的表现,我们对现有的野外(in-the-wild)数据集进行了标注,新增了二维手部关键点标注。基于这一新构建的标注数据集——HInt,我们验证了HaMeR相较于现有方法的显著性能提升。相关代码、数据集及模型均已公开,详见项目主页:https://geopavlakos.github.io/hamer/。

代码仓库

geopavlakos/hamer
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-hand-pose-estimation-on-freihandHaMeR
PA-F@15mm: 0.990
PA-F@5mm: 0.785
PA-MPJPE: 6.0
PA-MPVPE: 5.7
3d-hand-pose-estimation-on-hint-handHaMeR
PCK@0.05 (Ego4D) All: 38.9
PCK@0.05 (Ego4D) Occ: 23.0
PCK@0.05 (Ego4D) Visible: 52.0
PCK@0.05 (New Days) All: 48.0
PCK@0.05 (NewDays) Occ: 27.2
PCK@0.05 (NewDays) Visible: 60.8
PCK@0.05 (VISOR) All: 43.0
PCK@0.05 (VISOR) Occ: 25.9
PCK@0.05 (VISOR) Visible: 56.6
3d-hand-pose-estimation-on-ho-3dHaMeR
AUC_J: 0.846
AUC_V: 0.841
F@15mm: 0.980
F@5mm: 0.635
PA-MPJPE (mm): 7.7
PA-MPVPE: 7.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的三维手部重建 | 论文 | HyperAI超神经