
摘要
刚体物体的6D姿态估计是计算机视觉领域一个长期存在且极具挑战性的任务。近年来,深度学习的兴起揭示了卷积神经网络(CNN)在预测可靠6D姿态方面的潜力。然而,由于直接姿态回归网络当前性能尚不理想,大多数方法仍不同程度地依赖传统技术。例如,表现优异的方法通常采用间接策略:先建立2D-3D或3D-3D对应关系,随后使用基于RANSAC的PnP或Kabsch算法进行初始估计,并进一步通过ICP算法进行精化。尽管该类方法显著提升了性能,但传统模块的引入使得整体网络计算耗时,且难以实现端到端训练。与上述方法不同,本文提出一种完全基于学习的物体姿态估计算法。在本研究中,我们首先对直接法与间接法进行了深入分析,并提出一种简单而有效的几何引导直接回归网络(Geometry-guided Direct Regression Network, GDRN),能够从单目图像中以端到端的方式学习6D姿态。随后,我们设计了一种几何引导的姿态精化模块,在具备额外深度信息的情况下进一步提升姿态精度。该模块基于预测的坐标图,构建了一个端到端可微的架构,实现观测图像与渲染RGB-D图像之间鲁棒且精确的3D-3D对应关系,从而完成姿态优化。所提出的增强型姿态估计流程GDRNPP(GDRN Plus Plus)连续两年在BOP挑战赛中登顶排行榜,成为首个在精度与速度两方面均超越以往依赖传统技术的所有方法的方案。相关代码与模型已开源,地址为:https://github.com/shanice-l/gdrnpp_bop2022。
代码仓库
THU-DA-6D-Pose-Group/GDR-Net
官方
pytorch
GitHub 中提及
shanice-l/gdrnpp_bop2022
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-using-rgb-on-occlusion | GDR-Net | Mean ADD: 56.1 |