3 个月前

BEVFusion：基于统一鸟瞰图表示的多任务多传感器融合

Zhijian Liu Haotian Tang Alexander Amini Xinyu Yang Huizi Mao Daniela Rus Song Han

摘要

多传感器融合对于构建准确且可靠的自动驾驶系统至关重要。近年来的方法大多采用点级融合策略：将相机特征融入激光雷达点云中。然而，相机到激光雷达的投影过程会丢失相机特征的语义密度，从而限制了此类方法的性能，尤其是在面向语义的任务（如三维场景分割）中表现受限。本文提出BEVFusion，打破这一根深蒂固的传统范式，构建了一个高效且通用的多任务、多传感器融合框架。该框架在共享的鸟瞰图（Bird’s-Eye View, BEV）表示空间中统一多模态特征，能够有效保留几何与语义信息。为实现这一目标，我们深入分析并优化了视图变换中的关键效率瓶颈，引入改进的BEV池化机制，使延迟降低超过40倍。BEVFusion本质上具备任务无关性，几乎无需调整网络结构即可无缝支持多种三维感知任务。在nuScenes数据集上，该方法达到了新的最先进水平：在3D目标检测任务中，mAP和NDS分别提升1.3%；在BEV地图分割任务中，mIoU提升13.6%，同时计算成本降低至原来的1/1.9。相关代码已开源，可通过 https://github.com/mit-han-lab/bevfusion 获取以复现实验结果。

代码仓库

mit-han-lab/bevfusion

官方

pytorch

GitHub 中提及

nvidia-ai-iot/lidar_ai_solution

pytorch

GitHub 中提及

基准测试

基准	方法	指标
3d-object-detection-on-nuscenes	BEVFusion-e	NDS: 0.76 mAAE: 0.13 mAOE: 0.32 mAP: 0.75 mASE: 0.23 mATE: 0.24 mAVE: 0.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供