3 个月前

Drive&Segment：通过跨模态蒸馏实现城市场景的无监督语义分割

Antonin Vobecky David Hurych Oriane Siméoni Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic

摘要

本研究探讨了在城市场景中无需任何人工标注，仅依靠车载设备（配备摄像头与激光雷达LiDAR传感器）采集的原始非标注数据，实现像素级语义图像分割的方法。本文贡献主要体现在三个方面：首先，我们提出了一种新颖的跨模态无监督学习方法，用于语义图像分割，该方法充分利用同步采集的激光雷达与图像数据。其核心思想在于引入一个物体提议模块，通过分析激光雷达点云数据，获取空间上一致的物体候选区域。其次，我们证明了这些三维物体提议能够与输入图像对齐，并被可靠地聚类为具有语义意义的伪类别。最后，我们设计了一种跨模态知识蒸馏方法，利用由上述伪类别部分标注的图像数据，训练基于Transformer架构的图像语义分割模型。通过在四个不同测试数据集（Cityscapes、Dark Zurich、Nighttime Driving 和 ACDC）上进行零微调（zero-shot）测试，验证了本方法的强大泛化能力，并在该任务上显著优于当前最先进的方法。更多代码与项目详情请见项目主页：https://vobecant.github.io/DriveAndSegment/。

代码仓库

vobecant/DriveAndSegment

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
unsupervised-semantic-segmentation-on-1	Segmenter ViT-S/16	mIoU: 21.8
unsupervised-semantic-segmentation-on-2	Segmenter ViT-S/16	mIoU: 18.9
unsupervised-semantic-segmentation-on-acdc	Segmenter ViT-S/16	mIoU: 16.7
unsupervised-semantic-segmentation-on-dark	Segmenter ViT-S/16	mIoU: 14.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供