
摘要
赋予自主代理对日常物体的三维理解是机器人应用中的一个重大挑战。在探索未知环境时,现有的物体姿态估计方法由于物体形状的多样性而仍不尽如人意。本文提出了一种基于单个RGB-D图像进行类别级物体形状和姿态估计的新框架。为了处理类内变化,我们采用了语义基元表示方法,该方法将多样化的形状编码到统一的潜在空间中,这是建立观察点云与估计形状之间可靠对应关系的关键。通过使用SIM(3)不变形状描述符,我们优雅地解耦了物体的形状和姿态,从而支持目标物体在任意姿态下的潜在形状优化。大量实验表明,所提出的方法在现实世界数据集中实现了最先进的姿态估计性能,并且具有更好的泛化能力。代码和视频可在https://zju3dv.github.io/gCasp 获取。
代码仓库
zju3dv/gcasp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-using-rgbd-on-real275 | gcasp | mAP 10, 2cm: 64.2 mAP 10, 5cm: 76.3 mAP 3DIou@50: 79.0 mAP 3DIou@75: 65.3 mAP 5, 2cm: 46.9 mAP 5, 5cm: 54.7 |