
摘要
从单张RGB图像中通过透视n点(Perspective-n-Points, PnP)定位三维物体是计算机视觉领域长期存在的难题。受端到端深度学习的推动,近期研究将PnP视为可微分层,使得二维与三维点对应关系可通过相对于物体位姿的梯度反向传播部分地进行学习。然而,现有方法在从零开始学习全部无约束的二维-三维点对应关系时难以收敛,原因在于确定性位姿本身本质上不可微。本文提出EPro-PnP,一种面向通用端到端位姿估计的概率PnP层,其在SE(3)流形上输出位姿的概率分布,本质上将分类任务中的Softmax机制推广至连续域。二维-三维坐标及其对应权重被作为中间变量,通过最小化预测位姿分布与目标位姿分布之间的KL散度进行学习。该方法的内在原理统一了现有各类方法,并与注意力机制具有相似性。在LineMOD 6DoF位姿估计与nuScenes三维目标检测两个基准测试中,EPro-PnP显著优于现有竞争性基线方法,大幅缩小了基于PnP的方法与任务专用领先模型之间的性能差距。
代码仓库
tjiiv-cprg/epro-pnp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-nuscenes | EPro-PnP-Det v1 | NDS: 0.453 mAAE: 0.124 mAOE: 0.359 mAP: 0.373 mASE: 0.243 mATE: 0.605 mAVE: 1.067 |
| 6d-pose-estimation-on-linemod | EPro-PnP-6DoF v1 | Mean ADD: 95.8 |