
摘要
本文提出了一种全频段与子频段融合模型,命名为FullSubNet,用于单通道实时语音增强。其中,“全频段”与“子频段”分别指输入全频段和子频段噪声谱特征、输出全频段和子频段语音目标的模型。子频段模型对每个频率独立处理,其输入包含目标频率及其若干上下文频率,输出为对应频率的干净语音目标预测值。这两种模型具有不同的特性:全频段模型能够捕捉全局谱上下文信息以及远距离跨频段依赖关系,但难以建模信号的平稳性并关注局部谱模式;而子频段模型则恰好相反。在所提出的FullSubNet中,我们依次连接一个纯全频段模型与一个纯子频段模型,并通过实用的联合训练策略,有效融合两类模型的优势。我们在DNS挑战赛(INTERSPEECH 2020)数据集上进行了实验以评估该方法。实验结果表明,全频段与子频段信息具有互补性,FullSubNet能够高效融合二者信息。此外,FullSubNet的性能也优于DNS挑战赛(INTERSPEECH 2020)中排名前列的现有方法。
代码仓库
marialaraa/adresso_analysis
GitHub 中提及
tommy19970714/FullSubNetWithASR
pytorch
GitHub 中提及
sc0ttms/SE-FullSubNet
paddle
seorim0/DNN-based-Speech-Enhancement-in-the-frequency-domain
pytorch
GitHub 中提及
audio-westlakeu/fullsubnet
pytorch
GitHub 中提及
yunyangzeng/taploss
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-deep-noise-suppression | FullSubNet | PESQ-NB: 3.305 PESQ-WB: 2.777 SI-SDR-WB: 17.29 |