3 个月前

Drive&Segment:通过跨模态蒸馏实现城市场景的无监督语义分割

Drive&Segment:通过跨模态蒸馏实现城市场景的无监督语义分割

摘要

本研究探讨了在城市场景中无需任何人工标注,仅依靠车载设备(配备摄像头与激光雷达LiDAR传感器)采集的原始非标注数据,实现像素级语义图像分割的方法。本文贡献主要体现在三个方面:首先,我们提出了一种新颖的跨模态无监督学习方法,用于语义图像分割,该方法充分利用同步采集的激光雷达与图像数据。其核心思想在于引入一个物体提议模块,通过分析激光雷达点云数据,获取空间上一致的物体候选区域。其次,我们证明了这些三维物体提议能够与输入图像对齐,并被可靠地聚类为具有语义意义的伪类别。最后,我们设计了一种跨模态知识蒸馏方法,利用由上述伪类别部分标注的图像数据,训练基于Transformer架构的图像语义分割模型。通过在四个不同测试数据集(Cityscapes、Dark Zurich、Nighttime Driving 和 ACDC)上进行零微调(zero-shot)测试,验证了本方法的强大泛化能力,并在该任务上显著优于当前最先进的方法。更多代码与项目详情请见项目主页:https://vobecant.github.io/DriveAndSegment/。

代码仓库

vobecant/DriveAndSegment
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-semantic-segmentation-on-1Segmenter ViT-S/16
mIoU: 21.8
unsupervised-semantic-segmentation-on-2Segmenter ViT-S/16
mIoU: 18.9
unsupervised-semantic-segmentation-on-acdcSegmenter ViT-S/16
mIoU: 16.7
unsupervised-semantic-segmentation-on-darkSegmenter ViT-S/16
mIoU: 14.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Drive&Segment:通过跨模态蒸馏实现城市场景的无监督语义分割 | 论文 | HyperAI超神经