
摘要
本文针对从大型教师模型向轻量级学生网络迁移知识以实现LiDAR语义分割的问题展开研究。由于点云数据固有的稀疏性、随机性以及密度不均等特性,直接应用以往的知识蒸馏方法往往难以取得理想效果。为应对上述挑战,本文提出了一种点到体素知识蒸馏方法(Point-to-Voxel Knowledge Distillation, PVD),该方法同时从点级和体素级两个层次迁移隐藏知识。具体而言,我们首先结合点级与体素级输出的知识蒸馏,以弥补稀疏监督信号的不足。为进一步挖掘点云的结构信息,我们将整个点云划分为多个超体素(supervoxels),并设计了一种难度感知的采样策略,优先采样包含低频类别和远距离物体的超体素。在此基础上,我们提出了点间与体素间相似性蒸馏机制,利用点与体素之间的相似性信息,帮助学生模型更准确地捕捉周围环境的结构特征。我们在两个主流的LiDAR语义分割基准数据集——nuScenes和SemanticKITTI上进行了大量实验。在两个数据集上,PVD在三种代表性骨干网络(Cylinder3D、SPVNAS和MinkowskiNet)上均显著优于先前的知识蒸馏方法。尤其值得注意的是,在具有挑战性的nuScenes和SemanticKITTI数据集上,本方法在保持竞争力的同时,使Cylinder3D模型的计算量(MACs)降低约75%,推理速度提升约2倍,并在SemanticKITTI公开算法排行榜中位列第一。相关代码已开源,地址为:https://github.com/cardwing/Codes-for-PVKD。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-semantickitti | PVKD | test mIoU: 71.2% |
| lidar-semantic-segmentation-on-nuscenes | Point-to-Voxel KD | val mIoU: 0.760 |