4 个月前

高效建模长序列的结构状态空间

高效建模长序列的结构状态空间

摘要

序列建模的一个核心目标是设计一种单一且有原则的模型,该模型能够处理多种模态和任务中的序列数据,特别是在长距离依赖方面。尽管传统的模型(如RNN、CNN和Transformer)已经发展出专门的变体来捕捉长距离依赖关系,但它们在扩展到10000步或更长的序列时仍然面临挑战。最近提出的一种有前景的方法是通过模拟基本的状态空间模型(SSM)( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) )来建模序列,并证明了对于适当选择的状态矩阵 ( A ),该系统能够在数学上和实验中有效处理长距离依赖关系。然而,这种方法具有极高的计算和内存需求,使其作为通用序列建模解决方案变得不可行。我们提出了基于SSM的新参数化方法的结构化状态空间序列模型(Structured State Space sequence model, S4),并展示了它可以在保持理论优势的同时比先前的方法更高效地进行计算。我们的技术包括对 ( A ) 进行低秩修正,从而使其能够稳定地对角化,并将SSM简化为已广泛研究的Cauchy核计算问题。S4在多个已建立的基准测试中取得了强大的实证结果,具体包括:(i) 在无需数据增强或辅助损失的情况下,在顺序CIFAR-10数据集上达到91%的准确率,与更大的2D ResNet相当;(ii) 在图像和语言建模任务中显著缩小与Transformer的差距,同时生成速度提高60倍;(iii) 在Long Range Arena基准测试的所有任务中均达到最佳性能(SoTA),包括解决长度为16k的具有挑战性的Path-X任务,而所有先前的工作在此任务上均未能成功,同时其效率与所有竞争对手相当。

代码仓库

state-spaces/s4
官方
pytorch
GitHub 中提及
forgi86/lru-reduction
jax
GitHub 中提及
ag1988/dss
pytorch
GitHub 中提及
maxtimer97/ssm-inspired-lif
pytorch
GitHub 中提及
leonty1/essm
pytorch
GitHub 中提及
elgazzarr/fmri-s4
pytorch
GitHub 中提及
nicolaszucchet/minimal-lru
jax
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-wikitext-103S4
Number of params: 249M
Test perplexity: 21.28
sequential-image-classification-on-sequentialS4
Permuted Accuracy: 98.70%
Unpermuted Accuracy: 99.63%
sequential-image-classification-on-sequential-1S4
Unpermuted Accuracy: 91.80%
speech-recognition-on-speech-commands-2S4
Accuracy (%): 98.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
高效建模长序列的结构状态空间 | 论文 | HyperAI超神经