
摘要
理解自主机器人所处的环境场景,是其高效运行的关键。此类场景理解需要识别交通参与者实例,并掌握场景的通用语义信息,而这些目标可通过全景分割(panoptic segmentation)任务有效实现。本文提出一种高效的全景分割架构——EfficientPS,该架构采用共享主干网络,能够高效地编码并融合具有丰富语义信息的多尺度特征。我们设计了一种新型语义头,可协同聚合细粒度特征与上下文特征;同时引入一种改进的Mask R-CNN变体作为实例头。此外,我们提出一种新颖的全景融合模块,能够一致地整合EfficientPS架构中两个分支的输出logits,从而生成最终的全景分割结果。为进一步推动研究发展,我们还构建了KITTI全景分割数据集,该数据集为广泛使用的KITTI基准提供了全景标注。在Cityscapes、KITTI、Mapillary Vistas以及Indian Driving Dataset四个主流基准上的大量实验表明,所提出的EfficientPS架构在所有四个数据集上均持续刷新当前最优性能,同时成为迄今为止效率最高、运行速度最快的全景分割架构。
代码仓库
DeepSceneSeg/EfficientPS
官方
pytorch
GitHub 中提及
vincrichard/EfficientPS
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-cityscapes | EfficientPS | - |
| panoptic-segmentation-on-cityscapes-test | EfficientPS | PQ: 67.1 |
| panoptic-segmentation-on-cityscapes-test | EfficientPS (Cityscapes-fine) | PQ: 62.9 |
| panoptic-segmentation-on-cityscapes-val | EfficientPS (Cityscapes-fine) | AP: 39.1 PQ: 64.9 PQst: 67.7 PQth: 61.0 mIoU: 90.3 |
| panoptic-segmentation-on-cityscapes-val | EfficientPS | AP: 43.5 PQ: 67.5 PQst: 70.3 PQth: 63.2 mIoU: 82.1 |
| panoptic-segmentation-on-indian-driving-1 | EfficientPS | PQ: 51.1 |
| panoptic-segmentation-on-kitti-panoptic-1 | EfficientPS | PQ: 43.7 |
| panoptic-segmentation-on-mapillary-val | EfficientPS | PQ: 40.6 |
| semantic-segmentation-on-cityscapes | EfficientPS | Mean IoU (class): 84.21% |