3 个月前

BEVDistill:用于多视角3D目标检测的跨模态BEV知识蒸馏

BEVDistill:用于多视角3D目标检测的跨模态BEV知识蒸馏

摘要

从多视角图像进行3D目标检测是视觉场景理解中的基础且具有挑战性的任务。由于其成本低廉且效率高,多视角3D目标检测展现出广阔的应用前景。然而,由于透视视图缺乏深度信息,准确检测目标极为困难。当前多数方法倾向于采用复杂的图像编码器主干网络,导致其难以在实际场景中部署。相比之下,LiDAR点云在提供空间几何线索方面具有显著优势,能够实现高精度的定位。本文探索将基于LiDAR的检测器引入多视角3D目标检测任务中。不同于直接训练深度预测网络,我们提出在鸟瞰图(Bird-Eye-View, BEV)空间中统一图像与LiDAR特征,并在教师-学生框架下,自适应地实现异构表示之间的知识迁移。为此,我们提出BEVDistill——一种面向多视角3D目标检测的跨模态BEV知识蒸馏(Knowledge Distillation, KD)框架。大量实验表明,所提方法在极具竞争力的基线模型BEVFormer上显著优于现有知识蒸馏方法,且在推理阶段不引入任何额外计算开销。值得注意的是,我们最优模型在nuScenes测试排行榜上取得了59.4的NDS得分,超越了多种基于图像的检测器,达到了当前最优水平。代码将开源,地址为:https://github.com/zehuichen123/BEVDistill。

代码仓库

zehuichen123/bevdistill
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-onlyBEVDistill
Future Frame: false
NDS: 59.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BEVDistill:用于多视角3D目标检测的跨模态BEV知识蒸馏 | 论文 | HyperAI超神经