
摘要
多模态语义分割在复杂场景中显著提升了分割精度。然而,当前的方法通常包含针对特定模态定制的特征融合模块,这限制了输入的灵活性并增加了训练参数的数量。为了解决这些挑战,我们提出了一种简单而有效的模态融合框架——StitchFusion,该框架直接将大规模预训练模型作为编码器和特征融合器集成。这种方法促进了全面的多模态和多尺度特征融合,能够适应任何视觉模态输入。具体而言,我们的框架通过共享多模态视觉信息在编码过程中实现模态整合。为了增强跨模态的信息交换,我们引入了一个多方向适配器模块(MultiAdapter),以实现在编码过程中跨模态的信息传递。通过利用MultiAdapter在编码过程中传播多尺度信息,StitchFusion实现了在编码阶段的多模态视觉信息整合。广泛的对比实验表明,我们的模型仅需少量额外参数即可在四个多模态分割数据集上达到最先进的性能。此外,将MultiAdapter与现有的特征融合模块(FFMs)结合进行实验的结果突显了它们的互补性。我们的代码可在StitchFusion_repo获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-deliver | StitchFusion(RGB-D-E-LiDAR) | mIoU: 68.18 |
| semantic-segmentation-on-deliver | StitchFusion (RGB-LiDAR) | mIoU: 58.03 |
| semantic-segmentation-on-deliver | StitchFusion (RGB-D-LiDAR) | mIoU: 66.65 |
| semantic-segmentation-on-deliver | StitchFusion (RGB-Event) | mIoU: 57.44 |
| semantic-segmentation-on-deliver | StitchFusion (RGB-Depth) | mIoU: 65.75 |
| semantic-segmentation-on-deliver | StitchFusion (RGB-D-Event) | mIoU: 66.03 |
| semantic-segmentation-on-fmb-dataset | StitchFusion+FFMs (RGB-Infrared) | mIoU: 64.32 |
| semantic-segmentation-on-fmb-dataset | StitchFusion (RGB-Infrared) | mIoU: 63.30 |
| semantic-segmentation-on-mcubes | StitchFusion (RGB-A) | mIoU: 52.68 |
| semantic-segmentation-on-mcubes | StitchFusion (RGB-A-D-N) | mIoU: 53.92 |
| semantic-segmentation-on-mcubes | StitchFusion (RGB-N) | mIoU: 53.21 |
| semantic-segmentation-on-mcubes | StitchFusion (RGB-A-D) | mIoU: 53.26 |
| semantic-segmentation-on-mcubes | StitchFusion (RGB-D) | mIoU: 52.72 |
| thermal-image-segmentation-on-mfn-dataset | StitchFusion | mIOU: 58.13 |
| thermal-image-segmentation-on-pst900 | StitchFusion (RGB-T) | mIoU: 85.35 |