4 个月前

让SSM成为ConvNets:用最优张量收缩进行状态空间建模

让SSM成为ConvNets:用最优张量收缩进行状态空间建模

摘要

我们介绍了一种名为Centaurus的网络架构,该架构由广义状态空间模型(SSM)模块组成,在训练过程中可以将SSM操作视为张量收缩。然后,可以通过系统性方法为每个SSM模块确定最优的张量收缩顺序,以最大化训练效率。这使得在设计SSM模块时具有更大的灵活性,而不仅仅局限于常见的深度可分离配置。新的设计选择将借鉴经典卷积模块中的设计理念,包括组卷积、全卷积和瓶颈模块。我们在Centaurus网络中采用了这些模块的混合架构,以平衡网络规模和性能,同时提高训练和推理过程中的内存和计算效率。实验结果表明,这种异构网络设计在原始音频处理任务中(如关键词检测、语音降噪和自动语音识别(ASR))优于其同质化竞争对手。对于ASR任务,Centaurus是首个完全基于状态空间模型且具有竞争力性能的网络,无需使用任何非线性递归(如LSTMs)、显式卷积(如CNNs)或注意力机制(或替代注意力机制)。源代码作为补充材料发布在https://openreview.net/forum?id=PkpNRmBZ32。

基准测试

基准方法指标
speech-enhancement-on-demandCentaurus (0.51M)
PESQ (wb): 3.25
speech-recognition-on-librispeech-test-cleanCentaurus (30 M)
Word Error Rate (WER): 4.4
speech-recognition-on-speech-commands-2Centaurus
Accuracy (%): 98.53

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
让SSM成为ConvNets:用最优张量收缩进行状态空间建模 | 论文 | HyperAI超神经