3 个月前

Mamba-360:状态空间模型作为长序列建模中Transformer替代方案的综述:方法、应用与挑战

Mamba-360:状态空间模型作为长序列建模中Transformer替代方案的综述:方法、应用与挑战

摘要

序列建模是自然语言处理(NLP)、语音识别、时间序列预测、音乐生成以及生物信息学等多个领域中的关键研究方向。长期以来,循环神经网络(Recurrent Neural Networks, RNNs)和长短期记忆网络(Long Short-Term Memory Networks, LSTMs)在机器翻译、命名实体识别(Named Entity Recognition, NER)等序列建模任务中占据主导地位。然而,随着Transformer架构的兴起,序列建模范式发生了显著转变,因其在性能上的显著优势而迅速成为主流。尽管如此,Transformer模型存在注意力机制复杂度高达 $O(N^2)$ 的问题,且在建模归纳偏置(inductive bias)方面面临挑战。为应对上述局限,研究者提出了多种改进方案,包括引入谱网络(spectral networks)或卷积结构的变体,这些方法在多个任务上表现优异。然而,它们在处理超长序列时仍存在困难。在此背景下,状态空间模型(State Space Models, SSMs)作为序列建模的新范式应运而生,尤其以S4及其衍生模型(如S4nd、Hippo、Hyena、对角状态空间DSS、门控状态空间GSS、线性循环单元LRU、Liquid-S4、Mamba等)为代表,展现出巨大潜力。在本综述中,我们基于三种核心建模范式对基础SSM模型进行分类:门控架构(Gating architectures)、结构化架构(Structural architectures)与循环架构(Recurrent architectures)。此外,本文系统梳理了SSM在多个领域的多样化应用,涵盖视觉、视频、音频、语音、语言建模(特别是长序列建模)、医学(如基因组学)、化学(如药物设计)、推荐系统以及时间序列分析(包括表格数据)等。同时,本文还全面汇总了SSM模型在多个基准数据集上的性能表现,包括:长程依赖评估基准Long Range Arena(LRA)、WikiText、GLUE、The Pile、ImageNet、Kinetics-400、sstv2,以及视频数据集Breakfast、COIN、LVU,以及多种时间序列数据集。有关Mamba-360相关工作的项目页面可访问以下链接:https://github.com/badripatro/mamba360。

代码仓库

badripatro/mamba360
官方
GitHub 中提及

基准测试

基准方法指标
time-series-forecasting-on-etth1-336-1Simba
MAE: 0.443
MSE: 0.473

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mamba-360:状态空间模型作为长序列建模中Transformer替代方案的综述:方法、应用与挑战 | 论文 | HyperAI超神经