4 个月前

RCBEVDet++:迈向高精度雷达-相机融合3D感知网络

RCBEVDet++:迈向高精度雷达-相机融合3D感知网络

摘要

感知周围环境是自动驾驶中的基本任务。为了获得高精度的感知结果,现代自动驾驶系统通常采用多模态传感器来收集全面的环境数据。其中,雷达-相机多模态感知系统因其出色的感知能力和成本效益而备受青睐。然而,雷达和相机传感器之间显著的模态差异给信息融合带来了挑战。为了解决这一问题,本文提出了RCBEVDet,一种雷达-相机融合的三维目标检测框架。具体而言,RCBEVDet是在现有的基于相机的三维目标检测器基础上开发的,补充了一个专门设计的雷达特征提取器RadarBEVNet以及一个交叉注意力多层融合(CAMF)模块。首先,RadarBEVNet利用双流雷达骨干网络和Radar Cross Section(RCS)感知的鸟瞰图编码器,将稀疏的雷达点云编码为密集的鸟瞰图(BEV)特征。其次,CAMF模块通过可变形注意力机制对齐雷达和相机的鸟瞰图特征,并采用通道和空间融合层进行融合。为了进一步提升RCBEVDet的能力,我们引入了RCBEVDet++,该方法通过稀疏融合改进了CAMF模块,支持基于查询的多视角相机感知模型,并适应更广泛范围内的感知任务。在nuScenes数据集上的大量实验表明,我们的方法能够无缝集成到现有的基于相机的三维感知模型中,并在各种感知任务中提升其性能。此外,我们的方法在三维目标检测、鸟瞰图语义分割和三维多目标跟踪任务中取得了最先进的雷达-相机融合结果。值得注意的是,在使用ViT-L作为图像骨干网络的情况下,RCBEVDet++在无需测试时增强或模型集成的情况下,在三维目标检测任务中达到了72.73 NDS和67.34 mAP的成绩。

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-radarRCBEVDet++
NDS: 68.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RCBEVDet++:迈向高精度雷达-相机融合3D感知网络 | 论文 | HyperAI超神经