3 个月前

MonoRUn:通过重建与不确定性传播实现单目3D目标检测

MonoRUn:通过重建与不确定性传播实现单目3D目标检测

摘要

在单目3D目标检测中,实现3D空间中的目标定位是一项极具挑战性的任务。近年来,6自由度(6DoF)姿态估计的进展表明,通过预测图像与物体3D模型之间的密集2D-3D对应关系,并利用透视n点(Perspective-n-Point, PnP)算法估计物体姿态,可实现卓越的定位精度。然而,这类方法通常依赖于真实物体几何结构的标注信息进行训练,而在真实室外场景中获取此类几何真值数据极为困难。为解决这一问题,本文提出一种名为MonoRUn的新检测框架,该框架在仅需简单3D边界框标注的情况下,能够以自监督方式学习密集对应关系与物体几何结构。为回归与像素相关的3D物体坐标,我们引入了一种具备不确定性感知能力的区域重建网络。在自监督训练过程中,预测的3D坐标被投影回图像平面,同时提出一种鲁棒的KL损失函数,以最小化加权不确定性下的重投影误差。在测试阶段,我们通过将网络预测的不确定性传播至所有下游模块,进一步提升性能。具体而言,利用不确定性驱动的PnP算法来估计物体姿态及其协方差矩阵。大量实验结果表明,所提方法在KITTI基准测试上显著优于当前最先进的技术。

代码仓库

tjiiv-cprg/MonoRUn
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-3d-object-detection-on-kitti-carsMonoRUn
AP Medium: 12.30

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供