
摘要
本文的目标是在RGB-D图像中估计未见过的物体实例的6D姿态和尺寸。与“实例级”6D姿态估计任务不同,我们的问题假设在训练或测试过程中均无精确的物体CAD模型可用。为了处理给定类别中的不同和未见过的物体实例,我们引入了归一化物体坐标空间(Normalized Object Coordinate Space, NOCS)——这是一种为类别内所有可能的物体实例提供共享规范表示的方法。随后,我们的基于区域的神经网络被训练以直接从观测像素推断出与这种共享物体表示(NOCS)及其他物体信息(如类别标签和实例掩码)之间的对应关系。这些预测可以与深度图结合,共同估计杂乱场景中多个物体的度量6D姿态和尺寸。为了训练我们的网络,我们提出了一种新的上下文感知技术来生成大量完全注释的混合现实数据。为进一步改进模型并评估其在真实数据上的性能,我们还提供了一个具有大环境和实例变化的真实世界数据集,并对其进行了完全注释。大量的实验表明,所提出的方法能够在真实环境中稳健地估计未见过的物体实例的姿态和尺寸,同时在标准6D姿态估计基准上也达到了最先进的性能。
代码仓库
edavalosanaya/FastPoseCNN
pytorch
GitHub 中提及
ykzzyk/vision6d
GitHub 中提及
YuhangMing/Object-Guided-Relocalisation
tf
GitHub 中提及
sahithchada/NOCS_PyTorch
pytorch
GitHub 中提及
interactivegl/vision6d
pytorch
GitHub 中提及
lh641446825/NOCS_2019CVPR
tf
GitHub 中提及
zubair-irshad/CenterSnap
pytorch
wenbowen123/BundleTrack
pytorch
hughw19/NOCS_CVPR2019
官方
tf
GitHub 中提及
pairlab/6pack
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-using-rgbd-on-camera25 | NOCS (128 bins) | mAP 10, 10cm: 62.2 mAP 10, 5cm: 61.7 mAP 3DIou@25: 91.4 mAP 3DIou@50: 85.3 mAP 5, 5cm: 38.8 |
| 6d-pose-estimation-using-rgbd-on-real275 | NOCS (128 bins) | mAP 10, 10cm: 26.7 mAP 10, 5cm: 26.7 mAP 3DIou@25: 84.9 mAP 3DIou@50: 80.5 mAP 5, 5cm: 9.5 |