3 个月前

点到体素知识蒸馏在LiDAR语义分割中的应用

Yuenan Hou Xinge Zhu Yuexin Ma Chen Change Loy Yikang Li

摘要

本文针对从大型教师模型向轻量级学生网络迁移知识以实现LiDAR语义分割的问题展开研究。由于点云数据固有的稀疏性、随机性以及密度不均等特性，直接应用以往的知识蒸馏方法往往难以取得理想效果。为应对上述挑战，本文提出了一种点到体素知识蒸馏方法（Point-to-Voxel Knowledge Distillation, PVD），该方法同时从点级和体素级两个层次迁移隐藏知识。具体而言，我们首先结合点级与体素级输出的知识蒸馏，以弥补稀疏监督信号的不足。为进一步挖掘点云的结构信息，我们将整个点云划分为多个超体素（supervoxels），并设计了一种难度感知的采样策略，优先采样包含低频类别和远距离物体的超体素。在此基础上，我们提出了点间与体素间相似性蒸馏机制，利用点与体素之间的相似性信息，帮助学生模型更准确地捕捉周围环境的结构特征。我们在两个主流的LiDAR语义分割基准数据集——nuScenes和SemanticKITTI上进行了大量实验。在两个数据集上，PVD在三种代表性骨干网络（Cylinder3D、SPVNAS和MinkowskiNet）上均显著优于先前的知识蒸馏方法。尤其值得注意的是，在具有挑战性的nuScenes和SemanticKITTI数据集上，本方法在保持竞争力的同时，使Cylinder3D模型的计算量（MACs）降低约75%，推理速度提升约2倍，并在SemanticKITTI公开算法排行榜中位列第一。相关代码已开源，地址为：https://github.com/cardwing/Codes-for-PVKD。

基准测试

基准	方法	指标
3d-semantic-segmentation-on-semantickitti	PVKD	test mIoU: 71.2%
lidar-semantic-segmentation-on-nuscenes	Point-to-Voxel KD	val mIoU: 0.760

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供