17 天前

PoseCNN:用于杂乱场景中6D物体位姿估计的卷积神经网络

PoseCNN:用于杂乱场景中6D物体位姿估计的卷积神经网络

摘要

估计已知物体的6D位姿对于机器人与现实世界交互至关重要。由于物体种类繁多,以及场景中因物体杂乱堆积和相互遮挡所带来的复杂性,该问题极具挑战性。本文提出PoseCNN,一种用于6D物体位姿估计的新型卷积神经网络。PoseCNN通过在图像中定位物体中心并预测其与相机之间的距离,来估计物体的3D平移;通过回归到四元数表示,来估计物体的3D旋转。我们还提出了一种新颖的损失函数,使PoseCNN能够有效处理具有对称性的物体。此外,我们构建了一个大规模视频数据集,用于6D物体位姿估计,命名为YCB-Video数据集。该数据集包含来自YCB数据集的21个物体,在92段视频中共133,827帧图像中提供了精确的6D位姿标注。我们在自建的YCB-Video数据集以及OccludedLINEMOD数据集上进行了大量实验,结果表明,PoseCNN对遮挡具有高度鲁棒性,能够有效处理对称物体,并仅使用彩色图像作为输入即可实现高精度的位姿估计。当进一步结合深度数据对位姿进行优化时,我们的方法在具有挑战性的OccludedLINEMOD数据集上达到了当前最优性能。相关代码与数据集已公开,可访问:https://rse-lab.cs.washington.edu/projects/posecnn/。

代码仓库

NVlabs/PoseCNN-PyTorch
pytorch
GitHub 中提及
cxt98/Densefusion-transparency
pytorch
GitHub 中提及
Yotonctu/densefusion_torch1.0
pytorch
GitHub 中提及
leob03/E2E_Object_Pose_Estimator
pytorch
GitHub 中提及
hz-ants/Posecnn
tf
GitHub 中提及
yuxng/PoseCNN
tf
GitHub 中提及
RiplleYang/DenseFusion
pytorch
GitHub 中提及
caoquan95/6D-pose-project
pytorch
GitHub 中提及
hz-ants/DenseFusion
pytorch
GitHub 中提及

基准测试

基准方法指标
6d-pose-estimation-on-ycb-videoPoseCNN
Accuracy (ADD): 21.3%
Mean ADD: 53.7
Mean ADD-S: 75.9
6d-pose-estimation-on-ycb-video-2PoseCNN+ICP
ADDS AUC: 93.0
6d-pose-estimation-using-rgbd-on-ycb-videoPoseCNN (ICP)
Mean ADD: 79.3
6d-pose-estimation-using-rgbd-on-ycb-videoALL PoseCNN+ICP
Mean ADD-S: 93

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PoseCNN:用于杂乱场景中6D物体位姿估计的卷积神经网络 | 论文 | HyperAI超神经