
摘要
从单张图像中估计三维手部和物体姿态是一个极具挑战性的问题:在交互过程中,手部和物体经常会发生自遮挡现象,而且由于人类也无法直接从单张图像中完美地标记出真实情况,因此三维注释数据非常稀缺。为了解决这些挑战,我们提出了一种基于半监督学习的统一框架来估计三维手部和物体姿态。我们构建了一个联合学习框架,在该框架中通过Transformer对手部和物体表示之间的显式上下文关系进行推理。除了利用单张图像中的有限三维注释外,我们还利用大规模手-物视频中的时空一致性作为生成伪标签的约束条件,以应用于半监督学习。我们的方法不仅在具有挑战性的现实世界数据集中提高了手部姿态估计的准确性,而且还显著改善了每实例真实标注较少的物体姿态估计。通过使用大规模多样化的视频进行训练,我们的模型在多个域外数据集上的泛化能力也得到了更好的提升。项目页面和代码:https://stevenlsw.github.io/Semi-Hand-Object
代码仓库
stevenlsw/Semi-Hand-Object
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-hand-pose-estimation-on-dexycb | SHO | Average MPJPE (mm): 15.2 MPVPE: - PA-MPVPE: - PA-VAUC: - Procrustes-Aligned MPJPE: 6.58 VAUC: - |
| 3d-hand-pose-estimation-on-ho-3d | SHO | PA-MPJPE (mm): 10.1 |
| hand-object-pose-on-ho-3d | SHO | ADD-S: - Average MPJPE (mm): - OME: - PA-MPJPE: 10.1 ST-MPJPE: 31.7 |