
摘要
从单目图像中进行6-DoF(六自由度)物体位姿估计是一项具有挑战性的任务,通常需要后续的精化(post-refinement)步骤以实现高精度估计。本文提出一种基于循环神经网络(RNN)的物体位姿精化框架,该框架对初始位姿错误和遮挡具有较强的鲁棒性。在循环迭代过程中,物体位姿精化被建模为一个非线性最小二乘优化问题,其基础是估计得到的对应场(correspondence field,即渲染图像与观测图像之间的对应关系)。该优化问题通过可微分的Levenberg-Marquardt(LM)算法求解,从而支持端到端的训练。在每一迭代步骤中,对应场估计与位姿精化交替进行,以逐步恢复物体的精确位姿。此外,为增强对遮挡的鲁棒性,本文引入一种基于3D模型与观测2D图像所学特征描述子的一致性检验机制,该机制在位姿优化过程中自动降低不可靠对应关系的权重。在LINEMOD、Occlusion-LINEMOD以及YCB-Video等多个数据集上的大量实验验证了所提方法的有效性,并表明其在当前主流方法中达到了领先性能。
代码仓库
decayale/rnnpose
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-on-linemod | RNNPose | Accuracy (ADD): 97.37% Mean ADD: 97.37 |
| 6d-pose-estimation-using-rgb-on-occlusion | RNNPose (Trained with synthetic data and LINEMOD training set, w/o pbr data) | Mean ADD: 60.65 |