3 个月前

SparseBEV:基于多摄像头视频的高性能稀疏3D目标检测

SparseBEV:基于多摄像头视频的高性能稀疏3D目标检测

摘要

近年来,基于摄像头的鸟瞰图(Bird’s Eye View, BEV)空间3D目标检测受到广泛关注。主流的密集型检测器通常采用两阶段流程:首先构建密集的BEV特征,再在BEV空间中进行目标检测。然而,该方法面临复杂的视角变换以及较高的计算开销。另一方面,稀疏型检测器采用基于查询(query-based)的范式,无需显式构建密集的BEV特征,但其性能通常低于密集型方法。本文发现,缩小这一性能差距的关键在于检测器在BEV空间与图像空间中均具备良好的适应性。为此,我们提出SparseBEV——一种全稀疏的3D目标检测框架,其性能超越了现有密集型检测器。SparseBEV包含三个核心设计:(1)尺度自适应自注意力机制,用于在BEV空间中以自适应感受野聚合特征;(2)自适应时空采样策略,根据查询动态生成采样位置;(3)自适应融合机制,利用查询生成的动态权重对采样特征进行解码。在nuScenes数据集的测试集上,SparseBEV取得了67.5 NDS的当前最优性能;在验证集上,其NDS达到55.8,同时保持23.5 FPS的实时推理速度。代码已开源,地址为:https://github.com/MCG-NJU/SparseBEV。

代码仓库

mcg-nju/sparsebev
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-onlySparseBEV (V2-99)
Future Frame: yes
NDS: 67.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SparseBEV:基于多摄像头视频的高性能稀疏3D目标检测 | 论文 | HyperAI超神经