
摘要
我们的研究旨在从单目视频中实现手部和操作对象的三维重建。重建手-物操作在机器人技术和从人类演示中学习方面具有巨大的潜力。然而,针对这一问题的监督学习方法需要三维监督,并且仅限于可以获取三维真实数据的受控实验室环境和模拟器。在本文中,我们首先提出了一种无需学习的手-物重建拟合方法,该方法能够无缝处理双手与物体的交互。我们的方法依赖于通过常用的目标检测、手部姿态估计和实例分割方法获得的线索。我们对所提出的方法进行了定量评估,并展示了其可以应用于不同难度级别的数据集,即使这些数据集缺乏训练数据。
代码仓库
hassony2/homan
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-ho-3d | HOR | PA-MPJPE (mm): 12.0 |
| hand-object-pose-on-dexycb | UHO | ADD-S: - Average MPJPE (mm): 18.8 MCE: 52.5 OCE: - Procrustes-Aligned MPJPE: - |
| hand-object-pose-on-ho-3d | HOR | ADD-S: 40.0 Average MPJPE (mm): - OME: 80.0 PA-MPJPE: 12.0 ST-MPJPE: 26.8 |