4 个月前

StitchFusion:编织任意视觉模态以增强多模态语义分割

StitchFusion:编织任意视觉模态以增强多模态语义分割

摘要

多模态语义分割在复杂场景中显著提升了分割精度。然而,当前的方法通常包含针对特定模态定制的特征融合模块,这限制了输入的灵活性并增加了训练参数的数量。为了解决这些挑战,我们提出了一种简单而有效的模态融合框架——StitchFusion,该框架直接将大规模预训练模型作为编码器和特征融合器集成。这种方法促进了全面的多模态和多尺度特征融合,能够适应任何视觉模态输入。具体而言,我们的框架通过共享多模态视觉信息在编码过程中实现模态整合。为了增强跨模态的信息交换,我们引入了一个多方向适配器模块(MultiAdapter),以实现在编码过程中跨模态的信息传递。通过利用MultiAdapter在编码过程中传播多尺度信息,StitchFusion实现了在编码阶段的多模态视觉信息整合。广泛的对比实验表明,我们的模型仅需少量额外参数即可在四个多模态分割数据集上达到最先进的性能。此外,将MultiAdapter与现有的特征融合模块(FFMs)结合进行实验的结果突显了它们的互补性。我们的代码可在StitchFusion_repo获取。

基准测试

基准方法指标
semantic-segmentation-on-deliverStitchFusion(RGB-D-E-LiDAR)
mIoU: 68.18
semantic-segmentation-on-deliverStitchFusion (RGB-LiDAR)
mIoU: 58.03
semantic-segmentation-on-deliverStitchFusion (RGB-D-LiDAR)
mIoU: 66.65
semantic-segmentation-on-deliverStitchFusion (RGB-Event)
mIoU: 57.44
semantic-segmentation-on-deliverStitchFusion (RGB-Depth)
mIoU: 65.75
semantic-segmentation-on-deliverStitchFusion (RGB-D-Event)
mIoU: 66.03
semantic-segmentation-on-fmb-datasetStitchFusion+FFMs (RGB-Infrared)
mIoU: 64.32
semantic-segmentation-on-fmb-datasetStitchFusion (RGB-Infrared)
mIoU: 63.30
semantic-segmentation-on-mcubesStitchFusion (RGB-A)
mIoU: 52.68
semantic-segmentation-on-mcubesStitchFusion (RGB-A-D-N)
mIoU: 53.92
semantic-segmentation-on-mcubesStitchFusion (RGB-N)
mIoU: 53.21
semantic-segmentation-on-mcubesStitchFusion (RGB-A-D)
mIoU: 53.26
semantic-segmentation-on-mcubesStitchFusion (RGB-D)
mIoU: 52.72
thermal-image-segmentation-on-mfn-datasetStitchFusion
mIOU: 58.13
thermal-image-segmentation-on-pst900StitchFusion (RGB-T)
mIoU: 85.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StitchFusion:编织任意视觉模态以增强多模态语义分割 | 论文 | HyperAI超神经