ZhangRenrui ; QiuHan ; WangTai ; GuoZiyu ; TangYiwen ; XuXuanzhuo ; CuiZiteng ; QiaoYu ; GaoPeng ; LiHongsheng

摘要
单目3D目标检测一直是自动驾驶领域中的一个难题。现有的大多数方法遵循传统的2D检测器,首先定位物体中心,然后通过邻近特征预测3D属性。然而,仅使用局部视觉特征不足以理解场景级别的3D空间结构,并且忽略了远距离的物体间深度关系。在本文中,我们介绍了首个用于单目检测的深度引导Transformer框架,命名为MonoDETR(Monocular DEtection with a depth-guided TRansformer)。我们对标准Transformer进行了修改,使其具备深度感知能力,并通过上下文深度线索引导整个检测过程。具体而言,在捕捉物体外观的视觉编码器之外,我们引入了预测前景深度图的方法,并专门设计了一个深度编码器来提取非局部深度嵌入。随后,我们将3D目标候选物定义为可学习查询,并提出了一种深度引导解码器来进行目标-场景深度交互。通过这种方式,每个目标查询能够从图像上的深度引导区域自适应地估计其3D属性,而不再受局部视觉特征的限制。在以单目图像作为输入的KITTI基准测试中,MonoDETR实现了最先进的性能,并且不需要额外的密集深度注释。此外,我们的深度引导模块还可以即插即用地增强nuScenes数据集上的多视图3D目标检测器,展示了其出色的泛化能力。代码可在以下地址获取:https://github.com/ZrrSkywalker/MonoDETR。
代码仓库
zrrskywalker/monodetr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-from-monocular-images-on-7 | MonoDETR | AP25: 27.13 AP50: 0.79 |