7 个月前

摘要

我们提出了一种仅基于彩色图像进行3D目标检测和姿态估计的新方法。首先，我们利用分割技术在存在部分遮挡和杂乱背景的情况下检测出感兴趣的2D对象。与最近的基于补丁的方法不同，我们采用了一种“整体”（holistic）方法：我们将卷积神经网络（CNN）应用于检测到的对象上，该网络经过训练可以预测这些对象的3D姿态，形式为它们3D边界框角点的2D投影。然而，这种方法对于处理来自最近T-LESS数据集的对象还不够充分：这些对象具有旋转对称轴，两个不同姿态下的对象图像相似度较高，使得CNN的训练变得困难。我们通过限制用于训练的姿态范围，并引入一个分类器在运行时识别姿态范围来解决这一问题，从而在估计姿态之前进行识别。此外，我们还使用了一个可选的额外步骤来优化预测的姿态。我们在LINEMOD数据集上的表现从73.7%提升到了89.3%，正确注册的RGB帧比例显著提高。同时，我们也是首个仅使用彩色图像在Occlusion数据集上报告结果的研究团队。在T-LESS数据集的多个序列中，我们的方法平均有54%的帧通过了Pose 6D标准，而现有最佳方法在同一序列中使用彩色和深度信息时达到了67%的比例。整个方法还具有可扩展性，因为可以通过单个网络同时对多个对象进行训练。

源 PDF