摘要

近年来，基于激光雷达（LiDAR）的三维目标检测（3DOD）模型取得了显著进展，性能表现极为出色。相比之下，基于多摄像头图像的环视三维目标检测模型由于在从透视视图（Perspective View, PV）特征到三维世界表示的视图变换过程中缺乏深度信息，导致该变换过程存在歧义，因而性能相对不足。本文提出了一种跨模态、跨任务、跨阶段的综合性知识蒸馏框架——X3KD，用于提升多摄像头三维目标检测的性能。具体而言，我们在透视视图特征提取阶段引入了跨任务知识蒸馏（Cross-task Distillation, X-IS），由一个实例分割教师模型提供监督信号，避免了通过视图变换过程带来的模糊误差反向传播问题。在完成视图变换后，我们进一步采用跨模态特征蒸馏（Cross-modal Feature Distillation, X-FD）与对抗训练（Adversarial Training, X-AT），利用基于激光雷达的三维目标检测教师模型所蕴含的信息，优化多摄像头特征在三维世界空间中的表示能力。最后，我们还利用该教师模型进行跨模态输出蒸馏（Cross-modal Output Distillation, X-OD），在预测阶段提供密集的监督信号，进一步提升检测精度。我们在多摄像头三维目标检测的不同阶段进行了详尽的消融实验，验证了各知识蒸馏模块的有效性。最终的X3KD模型在nuScenes和Waymo数据集上均超越了此前的最先进方法，并展现出向基于雷达（RADAR）的三维目标检测任务的良好泛化能力。相关定性结果视频可访问：https://youtu.be/1do9DPFmr38。

源 PDF