
摘要
深度信息在RGB-D图像的语义分割中已被证明是一种有效的视觉线索,能够为RGB图像提供几何层面的补充信息。现有大多数方法通常假设深度测量值是准确且与RGB像素严格对齐的,并将该问题建模为跨模态特征融合,以获得更优的特征表示,从而实现更精确的分割。然而,这种假设在实际应用中往往难以成立,因为真实场景下的深度数据通常存在噪声,随着网络深度的增加,这些噪声可能进一步损害模型的分割性能。本文提出了一种统一且高效的跨模态引导编码器(Cross-modality Guided Encoder),不仅能有效校准RGB特征响应,还能通过多阶段机制提炼出更精确的深度信息,并在两个校准后的表示之间进行交替聚合。该架构的核心是一种新颖的“分离-聚合门控”(Separation-and-Aggregation Gating)操作,该操作在跨模态融合前联合完成对两种模态特征的过滤与重新校准。同时,本文引入了双向多步传播策略(Bi-direction Multi-step Propagation),一方面促进两种模态间的信息传播与融合,另一方面在长时间传播过程中有效保留各自模态的特异性。此外,所提出的编码器可无缝集成至现有的编码器-解码器结构中,显著提升其在RGB-D语义分割任务上的性能表现。在多个室内与室外具有挑战性的数据集上,本方法均持续优于当前最先进的技术水平。本工作的代码已开源,可访问:https://charlescxk.github.io/
代码仓库
charlesCXK/RGBD_Semantic_Segmentation_PyTorch
pytorch
GitHub 中提及
David-zaiwang/114_rgbd_seg
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-dsec | SAGate | mAP: 19.6 |
| object-detection-on-pku-ddd17-car | SAGate | mAP50: 82.0 |
| semantic-segmentation-on-bjroad | SA-Gate | IoU: 62.14 |
| semantic-segmentation-on-event-based | SA-Gate | mIoU: 84.08 |
| semantic-segmentation-on-eventscape | SA-Gate | mIoU: 53.94 |
| semantic-segmentation-on-llrgbd-synthetic | SA-Gate (ResNet-101) | mIoU: 61.79 |
| semantic-segmentation-on-nyu-depth-v2 | SA-Gate | Mean IoU: 52.4% |
| semantic-segmentation-on-porto | SA-Gate | IoU: 72.21 |
| semantic-segmentation-on-potsdam | SA-Gate | mIoU: 84.28 |
| semantic-segmentation-on-sun-rgbd | TokenFusion (Ti) | Mean IoU: 49.4% |
| semantic-segmentation-on-thud-robotic-dataset | SA-Gate | mIoU: 83.19 |
| semantic-segmentation-on-tlcgis | SA-Gate | IoU: 84.20 |
| semantic-segmentation-on-urbanlf | SA-Gate | mIoU (Real): n.a. mIoU (Syn): 79.53 |
| semantic-segmentation-on-us3d | SA-Gate | mIoU: 83.62 |
| semantic-segmentation-on-vaihingen | SA-Gate | mIoU: 81.03 |
| thermal-image-segmentation-on-mfn-dataset | SA-Gate | mIOU: 45.8 |
| thermal-image-segmentation-on-noisy-rs-rgb-t | SA-Gate | mIoU: 54.0 |