3 个月前

MemorySAM:基于分割一切模型的记忆多模态与语义

MemorySAM:基于分割一切模型的记忆多模态与语义

摘要

研究聚焦于多模态语义分割(Multi-Modal Semantic Segmentation, MMSS),该任务通过多种传感器捕获的异构视觉模态数据,实现像素级的预测。近期,大型视觉模型——Segment Anything Model 2(SAM2)在图像与视频的零样本分割任务中展现出强大的性能。然而,将SAM2扩展至MMSS场景时,面临两个关键挑战:1. 如何使SAM2适配多模态数据?2. 如何提升SAM2对语义信息的理解能力?受视频中跨帧相关性的启发,我们提出将多模态数据视为同一场景的时序帧序列。我们的核心思想是:一方面“记忆”模态无关的特征信息,另一方面“记忆”与目标场景相关的语义信息。为实现这一目标,我们在多模态数据上应用SAM2的内存机制,以捕捉跨模态的通用特征表示。同时,为实现语义知识的持续记忆,我们设计了一种仅在训练阶段使用的语义原型记忆模块(Semantic Prototype Memory Module, SPMM),用于在训练过程中存储类别级别的原型,从而辅助SAM2完成从实例分割到语义分割的过渡。此外,我们引入一种原型适应性损失(prototypical adaptation loss),在全局原型与局部原型之间进行迭代对齐与优化,以逐步提升SAM2的语义理解能力。大量实验结果表明,所提出的MemorySAM在合成数据与真实世界基准测试中均显著优于现有最先进方法,分别在DELIVER数据集上达到65.38%的mIoU,在MCubeS数据集上达到52.88%的mIoU。相关源代码将公开发布。

代码仓库

Chenfei-Liao/MemorySAM
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-deliverMemorySAM-B+(RGB)
mIoU: 53.22
semantic-segmentation-on-deliverMemorySAM-B+(R-D-E-L)
mIoU: 65.38
semantic-segmentation-on-deliverMemorySAM-B+(R-D-E)
mIoU: 62.42
semantic-segmentation-on-deliverMemorySAM-B+(R-D)
mIoU: 63.48
semantic-segmentation-on-mcubesMemorySAM-B+(RGB-A-D)
mIoU: 52.20
semantic-segmentation-on-mcubesMemorySAM-B+(RGB-A-D-N)
mIoU: 52.88
semantic-segmentation-on-mcubesMemorySAM-B+(RGB-A)
mIoU: 51.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MemorySAM:基于分割一切模型的记忆多模态与语义 | 论文 | HyperAI超神经