3 个月前

X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏

X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏

摘要

近年来,基于激光雷达(LiDAR)的三维目标检测(3DOD)模型取得了显著进展,性能表现极为出色。相比之下,基于多摄像头图像的环视三维目标检测模型由于在从透视视图(Perspective View, PV)特征到三维世界表示的视图变换过程中缺乏深度信息,导致该变换过程存在歧义,因而性能相对不足。本文提出了一种跨模态、跨任务、跨阶段的综合性知识蒸馏框架——X3KD,用于提升多摄像头三维目标检测的性能。具体而言,我们在透视视图特征提取阶段引入了跨任务知识蒸馏(Cross-task Distillation, X-IS),由一个实例分割教师模型提供监督信号,避免了通过视图变换过程带来的模糊误差反向传播问题。在完成视图变换后,我们进一步采用跨模态特征蒸馏(Cross-modal Feature Distillation, X-FD)与对抗训练(Adversarial Training, X-AT),利用基于激光雷达的三维目标检测教师模型所蕴含的信息,优化多摄像头特征在三维世界空间中的表示能力。最后,我们还利用该教师模型进行跨模态输出蒸馏(Cross-modal Output Distillation, X-OD),在预测阶段提供密集的监督信号,进一步提升检测精度。我们在多摄像头三维目标检测的不同阶段进行了详尽的消融实验,验证了各知识蒸馏模块的有效性。最终的X3KD模型在nuScenes和Waymo数据集上均超越了此前的最先进方法,并展现出向基于雷达(RADAR)的三维目标检测任务的良好泛化能力。相关定性结果视频可访问:https://youtu.be/1do9DPFmr38。

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-radarX3KD
NDS: 55.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏 | 论文 | HyperAI超神经