
摘要
在近期的语音增强(Speech Enhancement, SE)研究中,Transformer及其变体已成为主流方法。然而,自注意力机制固有的二次时间复杂度在实际部署中带来一定限制。Mamba作为一种新型状态空间模型(State-Space Model, SSM),凭借其在建模长序列方面的强大能力以及相对较低的计算复杂度,已在自然语言处理和计算机视觉领域获得广泛应用。本文提出一种创新架构——Mamba-SEUNet,将Mamba与U-Net结构相结合,用于语音增强任务。该方法通过引入双向Mamba模块,分别建模不同分辨率下语音信号的前向与后向依赖关系,并结合跳跃连接以捕获多尺度特征信息,从而实现当前最优(State-of-the-Art, SOTA)性能。在VCTK+DEMAND数据集上的实验结果表明,Mamba-SEUNet在保持低计算复杂度的同时,取得了3.59的PESQ得分;当与感知对比度拉伸(Perceptual Contrast Stretching)技术相结合时,PESQ得分进一步提升至3.73。
代码仓库
MyParadise21/Mamba-SEUNet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | Mamba-SEUNet L (+PCS) | CBAK: 3.67 COVL: 4.40 CSIG: 4.82 PESQ (wb): 3.73 Para. (M): 6.28 STOI: 96 |