
摘要
本研究探讨了在城市场景中无需任何人工标注,仅依靠车载设备(配备摄像头与激光雷达LiDAR传感器)采集的原始非标注数据,实现像素级语义图像分割的方法。本文贡献主要体现在三个方面:首先,我们提出了一种新颖的跨模态无监督学习方法,用于语义图像分割,该方法充分利用同步采集的激光雷达与图像数据。其核心思想在于引入一个物体提议模块,通过分析激光雷达点云数据,获取空间上一致的物体候选区域。其次,我们证明了这些三维物体提议能够与输入图像对齐,并被可靠地聚类为具有语义意义的伪类别。最后,我们设计了一种跨模态知识蒸馏方法,利用由上述伪类别部分标注的图像数据,训练基于Transformer架构的图像语义分割模型。通过在四个不同测试数据集(Cityscapes、Dark Zurich、Nighttime Driving 和 ACDC)上进行零微调(zero-shot)测试,验证了本方法的强大泛化能力,并在该任务上显著优于当前最先进的方法。更多代码与项目详情请见项目主页:https://vobecant.github.io/DriveAndSegment/。
代码仓库
vobecant/DriveAndSegment
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-on-1 | Segmenter ViT-S/16 | mIoU: 21.8 |
| unsupervised-semantic-segmentation-on-2 | Segmenter ViT-S/16 | mIoU: 18.9 |
| unsupervised-semantic-segmentation-on-acdc | Segmenter ViT-S/16 | mIoU: 16.7 |
| unsupervised-semantic-segmentation-on-dark | Segmenter ViT-S/16 | mIoU: 14.2 |