
摘要
建模手部与物体的操控对于理解人类如何与其环境互动至关重要。尽管具有实际应用的重要性,但在互动过程中估计手部和物体的姿态仍然具有挑战性,主要是由于操控过程中出现的大范围相互遮挡。近期的研究主要集中在需要大量标注训练样本的全监督方法上。然而,收集手部与物体交互的3D真实数据既昂贵又费时,并且容易出错。为了解决这一难题,我们提出了一种利用时间上的光度一致性的方法,即使视频中只有稀疏子帧有注释也能发挥作用。我们的模型在彩色图像上进行端到端训练,通过推断它们的姿态来联合重建手部和物体的3D模型。基于我们估计的重建结果,我们可微分地渲染相邻图像对之间的光流,并在网络中使用它将一帧变形到另一帧。随后,我们应用一种依赖于相邻图像之间视觉一致性的自监督光度损失函数。我们在3D手部-物体重建基准测试中取得了最先进的结果,并证明了我们的方法能够在数据量较少的情况下通过利用邻近帧的信息提高姿态估计的准确性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hand-object-pose-on-ho-3d | PCTHO | ADD-S: 22.0 Average MPJPE (mm): - OME: 67.0 PA-MPJPE: 11.4 ST-MPJPE: 36.9 |