
摘要
本文专注于从单目RGB-D图像中进行类别级别的6D姿态和尺寸估计。以往的方法由于在类别级别姿态特征提取方面效率低下,导致精度和推理速度较低。为了解决这一问题,我们提出了一种快速形状基础网络(FS-Net),该网络具有高效的类别级别特征提取能力,用于6D姿态估计。首先,我们设计了一种基于方向感知的自编码器,利用3D图卷积进行潜在特征提取。所学习的潜在特征由于3D图卷积的平移和尺度不变性特性,对点位移和物体尺寸不敏感。然后,为了高效地从潜在特征中解码类别级别的旋转信息,我们提出了一种新颖的解耦旋转机制,该机制采用两个解码器互补地获取旋转信息。同时,我们通过两个残差来估计平移和尺寸,这两个残差分别是物体点云中心与真实平移之间的差异以及类别平均尺寸与真实尺寸之间的差异。最后,为了提高FS-Net的泛化能力,我们提出了一种在线盒笼式3D变形机制以增强训练数据。在两个基准数据集上的大量实验表明,所提出的方法在类别级别和实例级别的6D物体姿态估计中均达到了最先进的性能。特别是在类别级别的姿态估计中,在不使用额外合成数据的情况下,我们的方法在NOCS-REAL数据集上比现有方法提高了6.3%。
代码仓库
DC1991/FS-Net
官方
pytorch
GitHub 中提及
DC1991/FS_Net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-using-rgbd-on-real275 | FS-Net | FPS: 20 mAP 10, 10cm: 64.6 mAP 10, 5cm: 60.8 mAP 3DIou@25: 95.1 mAP 3DIou@50: 92.2 mAP 3DIou@75: 63.5 mAP 5, 5cm: 28.2 |