6 个月前

摘要

研究聚焦于多模态语义分割（Multi-Modal Semantic Segmentation, MMSS），该任务通过多种传感器捕获的异构视觉模态数据，实现像素级的预测。近期，大型视觉模型——Segment Anything Model 2（SAM2）在图像与视频的零样本分割任务中展现出强大的性能。然而，将SAM2扩展至MMSS场景时，面临两个关键挑战：1. 如何使SAM2适配多模态数据？2. 如何提升SAM2对语义信息的理解能力？受视频中跨帧相关性的启发，我们提出将多模态数据视为同一场景的时序帧序列。我们的核心思想是：一方面“记忆”模态无关的特征信息，另一方面“记忆”与目标场景相关的语义信息。为实现这一目标，我们在多模态数据上应用SAM2的内存机制，以捕捉跨模态的通用特征表示。同时，为实现语义知识的持续记忆，我们设计了一种仅在训练阶段使用的语义原型记忆模块（Semantic Prototype Memory Module, SPMM），用于在训练过程中存储类别级别的原型，从而辅助SAM2完成从实例分割到语义分割的过渡。此外，我们引入一种原型适应性损失（prototypical adaptation loss），在全局原型与局部原型之间进行迭代对齐与优化，以逐步提升SAM2的语义理解能力。大量实验结果表明，所提出的MemorySAM在合成数据与真实世界基准测试中均显著优于现有最先进方法，分别在DELIVER数据集上达到65.38%的mIoU，在MCubeS数据集上达到52.88%的mIoU。相关源代码将公开发布。

源 PDF