
摘要
多传感器融合对于构建准确且可靠的自动驾驶系统至关重要。近年来的方法大多采用点级融合策略:将相机特征融入激光雷达点云中。然而,相机到激光雷达的投影过程会丢失相机特征的语义密度,从而限制了此类方法的性能,尤其是在面向语义的任务(如三维场景分割)中表现受限。本文提出BEVFusion,打破这一根深蒂固的传统范式,构建了一个高效且通用的多任务、多传感器融合框架。该框架在共享的鸟瞰图(Bird’s-Eye View, BEV)表示空间中统一多模态特征,能够有效保留几何与语义信息。为实现这一目标,我们深入分析并优化了视图变换中的关键效率瓶颈,引入改进的BEV池化机制,使延迟降低超过40倍。BEVFusion本质上具备任务无关性,几乎无需调整网络结构即可无缝支持多种三维感知任务。在nuScenes数据集上,该方法达到了新的最先进水平:在3D目标检测任务中,mAP和NDS分别提升1.3%;在BEV地图分割任务中,mIoU提升13.6%,同时计算成本降低至原来的1/1.9。相关代码已开源,可通过 https://github.com/mit-han-lab/bevfusion 获取以复现实验结果。
代码仓库
mit-han-lab/bevfusion
官方
pytorch
GitHub 中提及
nvidia-ai-iot/lidar_ai_solution
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-nuscenes | BEVFusion-e | NDS: 0.76 mAAE: 0.13 mAOE: 0.32 mAP: 0.75 mASE: 0.23 mATE: 0.24 mAVE: 0.22 |