
摘要
在复杂声学环境下,对单通道混合语音实现同时去噪与去混响,被认为是一项极具挑战性的任务。本文提出了一种名为D²Net的去噪与去混响网络,其中设计了一种双分支编码器(Two-Branch Encoder, TBE),用于提取并选择性融合具有不同粒度的特征。此外,本文还设计了一种全局-局部双路径变换器(Global-Local Dual-Path Transformer, GLDPT),在双路径变换器结构中引入局部密集合成注意力机制(Local Dense Synthesizer Attention, LDSA),以增强对局部信息的感知能力。我们在VoiceBank+DEMAND和WHAMR!数据集上对所提出的D²Net进行了评估,并开展了消融实验。同时,为验证D²Net在不同任务下的性能,我们在WHAMR!数据集中选取了三类数据,分别用于测试去噪仅任务、去混响仅任务以及同时去噪与去混响任务。实验结果表明,所提出的模型在各项任务中均优于对比模型,且在同时去噪与去混响、仅去混响以及仅去噪任务上均取得了更优性能,同时保持了较少的网络参数量。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | D²Net | CBAK: 3.18 COVL: 3.92 CSIG: 4.63 PESQ (wb): 3.27 STOI: 96 |