
摘要
本研究旨在探索一种可扩展的状态空间模型(State-Space Model, SSM)——Mamba,用于语音增强(Speech Enhancement, SE)任务。我们基于Mamba构建了一个回归模型,用以表征语音信号,并在此基础上设计了一种新型语音增强系统,命名为SEMamba。通过将Mamba作为基础与先进语音增强系统的核心模型,并结合信号级距离度量与面向度量的损失函数,我们系统地研究了Mamba的特性。实验结果表明,SEMamba表现优异,在VoiceBank-DEMAND数据集上取得了3.55的PESQ得分。当与感知对比拉伸(perceptual contrast stretching)技术相结合时,所提出的SEMamba进一步实现了新的最优性能,PESQ得分达到3.69,刷新了该任务的当前最优水平。
代码仓库
roychao19477/semamba
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | SEMamba (+PCS) | CBAK: 3.63 COVL: 4.37 CSIG: 4.79 PESQ (wb): 3.69 Para. (M): 2.25 STOI: 96 |