
摘要
深度复数U-Net结构与卷积循环网络(Convolutional Recurrent Network, CRN)在单通道语音增强任务中取得了当前最优的性能。这两种结构均为带有跳跃连接的编码器-解码器架构,其性能高度依赖于复数卷积层的表征能力。本文提出一种复数卷积块注意力模块(Complex Convolutional Block Attention Module, CCBAM),通过构建更具信息量的特征来增强复数卷积层的表征能力。CCBAM是一种轻量化且通用的模块,可无缝集成至任意复数卷积层中。我们将CCBAM分别与深度复数U-Net和CRN结合,显著提升了二者在语音增强任务中的性能表现。此外,本文进一步提出一种混合损失函数,用于在时频域(Time-Frequency, TF)和时域两个空间中联合优化复数模型。通过融合CCBAM与混合损失函数,我们构建了一种新的端到端(End-to-End, E2E)复数语音增强框架。消融实验与客观评估结果表明,所提出方法在性能上具有显著优势(项目开源地址:https://github.com/modelscope/ClearerVoice-Studio)。
代码仓库
alibabasglab/frcrn
pytorch
modelscope/ClearerVoice-Studio
官方
pytorch
基准测试
| 基准 | 方法 | 指标 | 
|---|---|---|
| speech-enhancement-on-deep-noise-suppression | FRCRN | PESQ-WB: 3.23 | 
| speech-enhancement-on-demand | D2Former | PESQ (wb): 3.43 Para. (M): 0.86 | 
| speech-enhancement-on-interspeech-2020-deep | DCCRN-M | PESQ-NB: 3.15 | 
| speech-enhancement-on-interspeech-2020-deep | DCCRN | PESQ-NB: 3.04 | 
| speech-enhancement-on-interspeech-2020-deep | DCCRN-MC | PESQ-NB: 3.21 | 
| speech-enhancement-on-wsj0-demand-rnnoise | DCCRN-M | PESQ-NB: 3.28 | 
| speech-enhancement-on-wsj0-demand-rnnoise | DCUNet | PESQ-NB: 3.25 | 
| speech-enhancement-on-wsj0-demand-rnnoise | DCUNet-MC | PESQ-NB: 3.44 |