
摘要
在不同环境下的移动机器人系统中,对场景进行深入分析至关重要。语义分割能够显著提升多种后续任务的性能,例如(语义辅助的)人体感知、(语义)自由空间检测、(语义)地图构建以及(语义)导航。本文提出了一种高效且鲁棒的RGB-D语义分割方法,该方法可通过NVIDIA TensorRT实现高度优化,因而非常适合作为移动机器人复杂场景分析系统中的通用初始处理步骤。实验表明,相较于仅使用RGB图像的处理方式,RGB-D分割具有明显优势,且在精心设计网络架构的前提下,仍可实现实时推理。我们在常用的室内数据集NYUv2和SUNRGB-D上对所提出的高效场景分析网络(Efficient Scene Analysis Network, ESANet)进行了评估,结果表明,该方法在达到当前最优性能的同时,显著提升了推理速度。此外,我们在室外数据集Cityscapes上的实验进一步验证了该方法在其他应用场景中的适用性。最后,除了提供基准测试结果外,本文还在一个典型的室内应用场景中展示了定性分析结果,以更直观地反映算法的实际表现。
代码仓库
evilpanda009/rain-perception
pytorch
GitHub 中提及
TUI-NICR/ESANet
官方
pytorch
GitHub 中提及
Barchid/RGBD-Seg
pytorch
GitHub 中提及
tui-nicr/nicr-scene-analysis-datasets
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-cityscapes | ESANet-R34-NBt1D | Mean IoU (class): 80.09% |
| semantic-segmentation-on-nyu-depth-v2 | ESANet (R18-NBt1D ) | Mean IoU: 48.17 |
| semantic-segmentation-on-nyu-depth-v2 | ESANet (R34-NBt1D) | Mean IoU: 50.30 |
| semantic-segmentation-on-sun-rgbd | CMX (B5) | Mean IoU: 48.17 |
| semantic-segmentation-on-thud-robotic-dataset | ESANet | mIoU: 78.42 |
| semantic-segmentation-on-urbanlf | ESANet | mIoU (Real): n.a. mIoU (Syn): 79.43 |
| thermal-image-segmentation-on-rgb-t-glass | ESANet | MAE: 0.040 |