
摘要
基于注意力机制的架构,如Conformer,在语音增强方面表现出色,但它们在输入序列长度的可扩展性方面面临挑战。相比之下,最近提出的扩展长短期记忆(xLSTM)架构提供了线性可扩展性。然而,基于xLSTM的模型在语音增强领域的应用尚未得到充分探索。本文介绍了xLSTM-SENet,这是首个基于xLSTM的单通道语音增强系统。通过比较分析发现,无论是xLSTM还是传统的LSTM,在VoiceBank+Demand数据集上的各种模型规模下,都能在语音增强任务中匹敌甚至超越最先进的Mamba和Conformer系统。通过消融研究,我们确定了指数门控和双向性等关键架构设计选择对其有效性起到了重要作用。我们的最佳xLSTM模型——xLSTM-SENet2,在复杂度相似的情况下,优于最先进的Mamba和Conformer系统,在VoiceBank+DEMAND数据集上表现尤为突出。
代码仓库
nikolaikyhne/xlstm-senet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | xLSTM-SENet2 | CBAK: 3.98 COVL: 4.27 CSIG: 4.78 PESQ (wb): 3.53 Para. (M): 2.27 STOI: 0.96 |