
摘要
从单张RGB图像中通过透视n点(Perspective-n-Point, PnP)定位三维物体是计算机视觉领域长期存在的难题。受端到端深度学习的推动,近期研究将PnP视为可微分层,通过反向传播姿态损失的梯度,实现对2D-3D点对应关系的部分学习。然而,从零开始学习完整的点对应关系极具挑战性,尤其是在姿态解存在歧义的情况下——此时全局最优姿态在理论上对三维点坐标不可微。本文提出EPro-PnP,一种面向通用端到端姿态估计的概率PnP层,能够在SE(3)流形上输出具有可微概率密度的姿态分布。2D-3D坐标及其对应权重被作为中间变量,通过最小化预测姿态分布与目标姿态分布之间的KL散度进行学习。该方法的内在原理推广了以往的范式,其思想与注意力机制具有相似性。EPro-PnP可有效增强现有的对应关系网络,在LineMOD 6DoF姿态估计基准上显著缩小了基于PnP的方法与任务特定领先方法之间的性能差距。此外,EPro-PnP为网络结构设计开辟了新可能,我们据此构建了一种新颖的可变形对应网络,在nuScenes 3D目标检测基准上实现了当前最优的姿态精度。相关代码已开源,地址为:https://github.com/tjiiv-cprg/EPro-PnP-v2。
代码仓库
tjiiv-cprg/epro-pnp
pytorch
GitHub 中提及
tjiiv-cprg/epro-pnp-v2
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-nuscenes | EPro-PnP-Det v2 | NDS: 0.49 mAAE: 0.123 mAOE: 0.302 mAP: 0.423 mASE: 0.236 mATE: 0.547 mAVE: 1.071 |
| 6d-pose-estimation-on-linemod | EPro-PnP-6DoF v2 | Mean ADD: 96.36 |