
摘要
估计已知物体的6D位姿对于机器人与现实世界交互至关重要。由于物体种类繁多,以及场景中因物体杂乱堆积和相互遮挡所带来的复杂性,该问题极具挑战性。本文提出PoseCNN,一种用于6D物体位姿估计的新型卷积神经网络。PoseCNN通过在图像中定位物体中心并预测其与相机之间的距离,来估计物体的3D平移;通过回归到四元数表示,来估计物体的3D旋转。我们还提出了一种新颖的损失函数,使PoseCNN能够有效处理具有对称性的物体。此外,我们构建了一个大规模视频数据集,用于6D物体位姿估计,命名为YCB-Video数据集。该数据集包含来自YCB数据集的21个物体,在92段视频中共133,827帧图像中提供了精确的6D位姿标注。我们在自建的YCB-Video数据集以及OccludedLINEMOD数据集上进行了大量实验,结果表明,PoseCNN对遮挡具有高度鲁棒性,能够有效处理对称物体,并仅使用彩色图像作为输入即可实现高精度的位姿估计。当进一步结合深度数据对位姿进行优化时,我们的方法在具有挑战性的OccludedLINEMOD数据集上达到了当前最优性能。相关代码与数据集已公开,可访问:https://rse-lab.cs.washington.edu/projects/posecnn/。
代码仓库
NVlabs/PoseCNN-PyTorch
pytorch
GitHub 中提及
cxt98/Densefusion-transparency
pytorch
GitHub 中提及
Yotonctu/densefusion_torch1.0
pytorch
GitHub 中提及
verityw/manipulation-final-project
GitHub 中提及
leob03/E2E_Object_Pose_Estimator
pytorch
GitHub 中提及
hz-ants/Posecnn
tf
GitHub 中提及
Theopetitjean/DenseFusion_R_Invariant
pytorch
GitHub 中提及
yuxng/PoseCNN
tf
GitHub 中提及
RiplleYang/DenseFusion
pytorch
GitHub 中提及
caoquan95/6D-pose-project
pytorch
GitHub 中提及
hz-ants/DenseFusion
pytorch
GitHub 中提及
varunburde/reconstruction_pose_benchmark
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-on-ycb-video | PoseCNN | Accuracy (ADD): 21.3% Mean ADD: 53.7 Mean ADD-S: 75.9 |
| 6d-pose-estimation-on-ycb-video-2 | PoseCNN+ICP | ADDS AUC: 93.0 |
| 6d-pose-estimation-using-rgbd-on-ycb-video | PoseCNN (ICP) | Mean ADD: 79.3 |
| 6d-pose-estimation-using-rgbd-on-ycb-video | ALL PoseCNN+ICP | Mean ADD-S: 93 |