8 个月前

摘要

感知周围环境是自动驾驶中的基本任务。为了获得高精度的感知结果，现代自动驾驶系统通常采用多模态传感器来收集全面的环境数据。其中，雷达-相机多模态感知系统因其出色的感知能力和成本效益而备受青睐。然而，雷达和相机传感器之间显著的模态差异给信息融合带来了挑战。为了解决这一问题，本文提出了RCBEVDet，一种雷达-相机融合的三维目标检测框架。具体而言，RCBEVDet是在现有的基于相机的三维目标检测器基础上开发的，补充了一个专门设计的雷达特征提取器RadarBEVNet以及一个交叉注意力多层融合（CAMF）模块。首先，RadarBEVNet利用双流雷达骨干网络和Radar Cross Section（RCS）感知的鸟瞰图编码器，将稀疏的雷达点云编码为密集的鸟瞰图（BEV）特征。其次，CAMF模块通过可变形注意力机制对齐雷达和相机的鸟瞰图特征，并采用通道和空间融合层进行融合。为了进一步提升RCBEVDet的能力，我们引入了RCBEVDet++，该方法通过稀疏融合改进了CAMF模块，支持基于查询的多视角相机感知模型，并适应更广泛范围内的感知任务。在nuScenes数据集上的大量实验表明，我们的方法能够无缝集成到现有的基于相机的三维感知模型中，并在各种感知任务中提升其性能。此外，我们的方法在三维目标检测、鸟瞰图语义分割和三维多目标跟踪任务中取得了最先进的雷达-相机融合结果。值得注意的是，在使用ViT-L作为图像骨干网络的情况下，RCBEVDet++在无需测试时增强或模型集成的情况下，在三维目标检测任务中达到了72.73 NDS和67.34 mAP的成绩。

源 PDF