
摘要
实现自动驾驶汽车的第5级驾驶自动化需要一个强大的语义视觉感知系统,该系统能够在各种条件下解析来自不同传感器的数据。然而,现有的语义感知数据集通常缺乏自动驾驶车辆中常用的非摄像头模态,或者未能充分利用这些模态在复杂条件下辅助和改进语义注释。为了解决这一问题,我们引入了MUSES(MUlti-SEnsor Semantic perception dataset for driving in adverse conditions under increased uncertainty),这是一个用于在不确定度增加的恶劣条件下驾驶的多模态语义感知数据集。MUSES 包含了在多种天气和光照条件下捕捉到的2500张图像的同步多模态记录,并提供了2D全景注释。该数据集整合了帧相机、激光雷达、雷达、事件相机以及IMU/GNSS传感器。我们提出了一种新的两阶段全景注释协议,能够捕捉地面真值中的类别级别和实例级别的不确定性,并支持我们新引入的不确定性感知全景分割任务,同时包括标准的语义分割和全景分割。MUSES不仅在训练模型方面表现出色,而且在评估模型在多样化的视觉条件下的性能时也具有挑战性,它为多模态和不确定性感知密集语义感知研究开辟了新的途径。我们的数据集和基准测试已公开发布于 https://muses.vision.ee.ethz.ch。
代码仓库
timbroed/MUSES
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-muses-multi-sensor | Mask2Former (R50) | AP: 28.14 |
| panoptic-segmentation-on-muses-multi-sensor-1 | MUSES (Mask2Former /w 4xSwin-T) | PQ: 53.6 |
| semantic-segmentation-on-muses-multi-sensor | Mask2Former (Swin-T) | mIoU: 70.74 |
| uncertainty-aware-panoptic-segmentation-on | Mask2Former (Swin-T) | AUPQ: 44.3 |