
摘要
在城市场景理解的语义分割中,仅使用RGB相机往往难以在具有挑战性的光照条件下捕捉到清晰的整体拓扑结构。热信号是一种信息丰富的附加通道,可以在低质量的RGB图像中揭示模糊区域的轮廓和细粒度纹理。为了实现实用的RGB-T(热)分割,我们系统地提出了一种空间感知需求引导递归网格化(SpiderMesh)框架,该框架能够:1)通过需求引导的目标掩码算法主动补偿光学受损区域中的上下文语义不足;2)利用递归网格化技术细化多模态语义特征,以提高像素级语义分析性能。此外,我们引入了一种非对称数据增强技术M-CutOut,并实现了半监督学习,以便在实际应用中充分利用稀疏分布的RGB-T标签。在MFNet和PST900数据集上的大量实验表明,SpiderMesh在标准RGB-T分割基准上达到了最先进的性能。
代码仓库
leofansq/spidermesh
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| thermal-image-segmentation-on-mfn-dataset | SpiderMesh (ResNet-50) | mIOU: 54.4 |
| thermal-image-segmentation-on-mfn-dataset | SpiderMesh (B4) | mIOU: 58.4 |
| thermal-image-segmentation-on-mfn-dataset | SpiderMesh (ResNet-152) | mIOU: 57.9 |
| thermal-image-segmentation-on-mfn-dataset | SpiderMesh (ResNet-101) | mIOU: 56.1 |
| thermal-image-segmentation-on-pst900 | SpiderMesh | mIoU: 82.3 |