4 个月前

摘要

估计已知物体的6D位姿对于机器人与现实世界交互至关重要。由于物体种类繁多，以及场景中因物体杂乱堆积和相互遮挡所带来的复杂性，该问题极具挑战性。本文提出PoseCNN，一种用于6D物体位姿估计的新型卷积神经网络。PoseCNN通过在图像中定位物体中心并预测其与相机之间的距离，来估计物体的3D平移；通过回归到四元数表示，来估计物体的3D旋转。我们还提出了一种新颖的损失函数，使PoseCNN能够有效处理具有对称性的物体。此外，我们构建了一个大规模视频数据集，用于6D物体位姿估计，命名为YCB-Video数据集。该数据集包含来自YCB数据集的21个物体，在92段视频中共133,827帧图像中提供了精确的6D位姿标注。我们在自建的YCB-Video数据集以及OccludedLINEMOD数据集上进行了大量实验，结果表明，PoseCNN对遮挡具有高度鲁棒性，能够有效处理对称物体，并仅使用彩色图像作为输入即可实现高精度的位姿估计。当进一步结合深度数据对位姿进行优化时，我们的方法在具有挑战性的OccludedLINEMOD数据集上达到了当前最优性能。相关代码与数据集已公开，可访问：https://rse-lab.cs.washington.edu/projects/posecnn/。

源 PDF