
摘要
单目3D物体检测是自动驾驶领域中一个重要的但具有挑战性的任务。一些现有的方法利用现成的深度估计器提供的深度信息来辅助3D检测,但这些方法因额外的计算负担以及由不准确的深度先验导致的性能有限而受到限制。为了解决这一问题,我们提出了一种新颖的端到端深度感知变压器网络——MonoDTR。该网络主要由两个组件构成:(1)深度感知特征增强(DFE)模块,该模块通过辅助监督隐式学习深度感知特征,而无需额外计算;(2)深度感知变压器(DTR)模块,该模块全局整合上下文和深度感知特征。此外,不同于传统的像素级位置编码,我们引入了一种新的深度位置编码(DPE),以将深度位置提示注入变压器中。我们提出的深度感知模块可以轻松集成到现有的仅基于图像的单目3D物体检测器中,以提升其性能。在KITTI数据集上的大量实验表明,我们的方法优于以往基于单目的最先进方法,并实现了实时检测。代码可在 https://github.com/kuanchihhuang/MonoDTR 获取。
代码仓库
kuanchihhuang/monodtr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-monocular-images-on-7 | MonoDTR | AP25: 39.76 AP50: 3.02 |