
摘要
单目3D目标检测旨在从输入的单张2D图像中定位3D边界框,这是一个极具挑战性且尚未完全解决的问题,尤其是在训练和/或推理过程中无法利用任何额外信息(如深度图、激光雷达数据和/或多帧序列)的情况下。本文提出了一种简单而有效的单目3D目标检测方法,该方法不依赖任何额外信息。所提出的MonoCon方法通过在训练过程中引入“单目上下文”(Monocular Contexts)作为辅助任务,以提升单目3D目标检测的性能。其核心思想是:利用图像中物体标注的3D边界框,可在训练阶段获得丰富且结构良好的投影2D监督信号,例如投影后的角点关键点及其相对于2D边界框中心的偏移向量,这些信号应被有效利用为训练中的辅助任务。该方法的理论动机源于测度论中的Cramer-Wold定理。在实现上,MonoCon采用一种极为简洁的端到端架构,以验证学习辅助单目上下文的有效性,该架构包含三个组成部分:基于深度神经网络(DNN)的特征主干网络、若干用于学习3D边界框预测所需关键参数的回归头分支,以及若干用于学习辅助上下文信息的回归头分支。训练完成后,辅助上下文回归分支将被移除,以提升推理效率。在实验中,所提出的MonoCon方法在KITTI基准测试(汽车、行人和骑车人类别)上进行了评估,其在汽车类别的排行榜中超越了所有现有方法,且在行人和骑车人类别上也达到了与现有方法相当的检测精度。得益于其简洁的设计,MonoCon在推理速度方面表现优异,达到了38.7帧/秒(fps),在同类方法中具有最快的推理速度。
代码仓库
Xianpeng919/MonoCon
官方
pytorch
GitHub 中提及
2gunsu/monocon-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-3d-object-detection-on-kitti-cars | MonoCon | AP Medium: 16.46 |