6 个月前

摘要

在单目3D目标检测中，实现3D空间中的目标定位是一项极具挑战性的任务。近年来，6自由度（6DoF）姿态估计的进展表明，通过预测图像与物体3D模型之间的密集2D-3D对应关系，并利用透视n点（Perspective-n-Point, PnP）算法估计物体姿态，可实现卓越的定位精度。然而，这类方法通常依赖于真实物体几何结构的标注信息进行训练，而在真实室外场景中获取此类几何真值数据极为困难。为解决这一问题，本文提出一种名为MonoRUn的新检测框架，该框架在仅需简单3D边界框标注的情况下，能够以自监督方式学习密集对应关系与物体几何结构。为回归与像素相关的3D物体坐标，我们引入了一种具备不确定性感知能力的区域重建网络。在自监督训练过程中，预测的3D坐标被投影回图像平面，同时提出一种鲁棒的KL损失函数，以最小化加权不确定性下的重投影误差。在测试阶段，我们通过将网络预测的不确定性传播至所有下游模块，进一步提升性能。具体而言，利用不确定性驱动的PnP算法来估计物体姿态及其协方差矩阵。大量实验结果表明，所提方法在KITTI基准测试上显著优于当前最先进的技术。

源 PDF