3 个月前

BEVFormer v2:通过视角监督将现代图像主干网络适配至鸟瞰图识别

BEVFormer v2:通过视角监督将现代图像主干网络适配至鸟瞰图识别

摘要

我们提出了一种新型的鸟瞰图(Bird's-Eye-View, BEV)检测器,该检测器采用透视空间监督机制,具有更快的收敛速度,并更适配现代图像主干网络。现有的先进BEV检测器通常依赖于特定的深度预训练主干网络(如VoVNet),这限制了蓬勃发展的图像主干网络与BEV检测器之间的协同优化。为解决这一局限性,我们通过引入透视空间监督,优先降低BEV检测器的优化难度。为此,我们设计了一种两阶段BEV检测框架:由透视空间头部生成的候选区域被送入鸟瞰图头部,用于最终的预测输出。为验证所提方法的有效性,我们开展了广泛的消融实验,重点考察监督形式的设计以及所提检测器的通用性。实验结果表明,该方法在多种传统与现代图像主干网络上均表现出色,并在大规模nuScenes数据集上取得了新的最先进(SoTA)性能。相关代码即将开源。

代码仓库

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-onlyBEVFormer v2 (InternImage-XL)
Future Frame: yes
NDS: 63.4
3d-object-detection-on-rope3dBEVFormer
AP@0.7: 24.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BEVFormer v2:通过视角监督将现代图像主干网络适配至鸟瞰图识别 | 论文 | HyperAI超神经