4 个月前

xLSTM-SENet:用于单通道语音增强的xLSTM

xLSTM-SENet:用于单通道语音增强的xLSTM

摘要

基于注意力机制的架构,如Conformer,在语音增强方面表现出色,但它们在输入序列长度的可扩展性方面面临挑战。相比之下,最近提出的扩展长短期记忆(xLSTM)架构提供了线性可扩展性。然而,基于xLSTM的模型在语音增强领域的应用尚未得到充分探索。本文介绍了xLSTM-SENet,这是首个基于xLSTM的单通道语音增强系统。通过比较分析发现,无论是xLSTM还是传统的LSTM,在VoiceBank+Demand数据集上的各种模型规模下,都能在语音增强任务中匹敌甚至超越最先进的Mamba和Conformer系统。通过消融研究,我们确定了指数门控和双向性等关键架构设计选择对其有效性起到了重要作用。我们的最佳xLSTM模型——xLSTM-SENet2,在复杂度相似的情况下,优于最先进的Mamba和Conformer系统,在VoiceBank+DEMAND数据集上表现尤为突出。

代码仓库

nikolaikyhne/xlstm-senet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-enhancement-on-demandxLSTM-SENet2
CBAK: 3.98
COVL: 4.27
CSIG: 4.78
PESQ (wb): 3.53
Para. (M): 2.27
STOI: 0.96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
xLSTM-SENet:用于单通道语音增强的xLSTM | 论文 | HyperAI超神经