
摘要
在本工作中,我们提出CleanUNet 2,一种结合波形去噪器与频谱图去噪器优势的语音去噪模型,实现了两者的最佳融合。CleanUNet 2采用受主流语音合成方法启发的两阶段框架,该框架由波形模型与频谱图模型组成。具体而言,CleanUNet 2在当前最先进的波形去噪器CleanUNet的基础上进行改进,通过将频谱图去噪器预测的频谱图作为输入,进一步提升了模型性能。实验结果表明,CleanUNet 2在多项客观与主观评估指标上均优于以往方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-deep-noise-suppression | CleanUNet-2 | PESQ-NB: 3.658 PESQ-WB: 3.262 |