3 个月前

FullSubNet+:基于复谱图的通道注意力FullSubNet语音增强

FullSubNet+:基于复谱图的通道注意力FullSubNet语音增强

摘要

此前提出的 FullSubNet 在深度噪声抑制(Deep Noise Suppression, DNS)挑战赛中取得了卓越性能,引起了广泛关注。然而,该方法仍存在输入输出不匹配以及频带处理粗略等问题。本文提出了一种扩展的单通道实时语音增强框架——FullSubNet+,并在以下几个方面实现了显著改进。首先,我们设计了一种轻量级的多尺度时敏通道注意力模块(Multi-scale Time-sensitive Channel Attention, MulCA),该模块结合多尺度卷积与通道注意力机制,有助于网络聚焦于更具区分性的频带以实现更优的降噪效果。其次,为充分挖掘含噪语音中的相位信息,我们的模型将幅度谱、实部谱和虚部谱三者全部作为输入。此外,通过用堆叠的时序卷积网络(Temporal Convolutional Network, TCN)模块替代原始全频带模型中的长短期记忆(LSTM)层,我们构建了一个更为高效的全频带特征提取模块,称为全频带提取器(full-band extractor)。在 DNS 挑战赛数据集上的实验结果表明,所提出的 FullSubNet+ 具有卓越的性能,达到了当前最先进的(State-of-the-Art, SOTA)水平,并显著优于现有的各类语音增强方法。

代码仓库

hit-thusz-rookiecj/fullsubnet-plus
pytorch
GitHub 中提及
thuhcsi/fullsubnet-plus
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionFullSubNet+
PESQ-NB: 3.666
PESQ-WB: 3.218
SI-SDR-WB: 16.81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FullSubNet+:基于复谱图的通道注意力FullSubNet语音增强 | 论文 | HyperAI超神经