8 个月前

摘要

人类的手部具有高度的灵活性和多功能性，能够熟练地操作物体。从单目相机同时估计手部和被操纵物体的三维姿态是一项具有挑战性的任务，因为频繁出现的遮挡现象使得这一过程变得复杂。因此，现有的方法通常依赖于中间的三维形状表示来提高性能。这些表示通常是显式的，例如三维点云或网格（mesh），从而在中间手部姿态估计的直接周围提供信息。为了解决这一问题，我们引入了HOISDF，这是一种基于符号距离场（Signed Distance Field, SDF）引导的手-物姿态估计网络，该网络通过联合利用手部和物体的SDF来提供整个重建体积内的全局隐式表示。具体而言，SDF的作用有三个方面：为视觉编码器提供隐式形状信息；帮助编码手-物交互；通过基于SDF的采样和增强特征表示来指导手部和物体的姿态回归。我们展示了HOISDF在手-物姿态估计基准测试（DexYCB和HO3Dv2）中取得了最先进的结果。代码可在https://github.com/amathislab/HOISDF 获取。

源 PDF