4 个月前

Sigma:用于多模态语义分割的Siamese Mamba网络

Sigma:用于多模态语义分割的Siamese Mamba网络

摘要

多模态语义分割显著提升了人工智能代理在感知和场景理解方面的能力,尤其是在低光或过曝等不利条件下。通过利用额外的模态(X-模态),如热成像和深度信息,与传统的RGB图像相结合,可以提供互补的信息,从而实现更稳健和可靠的预测。在这项工作中,我们介绍了Sigma,一种基于先进Mamba技术的Siamese Mamba网络,用于多模态语义分割。与依赖于局部感受野有限的卷积神经网络(CNN)或以二次复杂度为代价提供全局感受野的视觉变换器(Vision Transformers, ViTs)不同,我们的模型能够在保持线性复杂度的同时实现全局感受野。通过使用Siamese编码器并创新地引入基于Mamba的融合机制,我们能够有效地从不同的模态中选择关键信息。随后开发了解码器以增强模型在通道维度上的建模能力。我们提出的方法在RGB-热成像和RGB-深度语义分割任务上进行了严格的评估,展示了其优越性,并标志着状态空间模型(State Space Models, SSMs)首次成功应用于多模态感知任务。代码可在https://github.com/zifuwan/Sigma 获取。

代码仓库

zifuwan/sigma
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
thermal-image-segmentation-on-mfn-datasetSigma-base
mIOU: 61.3
thermal-image-segmentation-on-pst900Sigma-small
mIoU: 87.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sigma:用于多模态语义分割的Siamese Mamba网络 | 论文 | HyperAI超神经