3 个月前

FullSubNet:一种用于实时单通道语音增强的全带与子带融合模型

FullSubNet:一种用于实时单通道语音增强的全带与子带融合模型

摘要

本文提出了一种全频段与子频段融合模型,命名为FullSubNet,用于单通道实时语音增强。其中,“全频段”与“子频段”分别指输入全频段和子频段噪声谱特征、输出全频段和子频段语音目标的模型。子频段模型对每个频率独立处理,其输入包含目标频率及其若干上下文频率,输出为对应频率的干净语音目标预测值。这两种模型具有不同的特性:全频段模型能够捕捉全局谱上下文信息以及远距离跨频段依赖关系,但难以建模信号的平稳性并关注局部谱模式;而子频段模型则恰好相反。在所提出的FullSubNet中,我们依次连接一个纯全频段模型与一个纯子频段模型,并通过实用的联合训练策略,有效融合两类模型的优势。我们在DNS挑战赛(INTERSPEECH 2020)数据集上进行了实验以评估该方法。实验结果表明,全频段与子频段信息具有互补性,FullSubNet能够高效融合二者信息。此外,FullSubNet的性能也优于DNS挑战赛(INTERSPEECH 2020)中排名前列的现有方法。

代码仓库

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionFullSubNet
PESQ-NB: 3.305
PESQ-WB: 2.777
SI-SDR-WB: 17.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FullSubNet:一种用于实时单通道语音增强的全带与子带融合模型 | 论文 | HyperAI超神经