3 个月前

D²Net:一种基于双分支编码器与双路径Transformer的去噪与去混响网络

D²Net:一种基于双分支编码器与双路径Transformer的去噪与去混响网络

摘要

在复杂声学环境下,对单通道混合语音实现同时去噪与去混响,被认为是一项极具挑战性的任务。本文提出了一种名为D²Net的去噪与去混响网络,其中设计了一种双分支编码器(Two-Branch Encoder, TBE),用于提取并选择性融合具有不同粒度的特征。此外,本文还设计了一种全局-局部双路径变换器(Global-Local Dual-Path Transformer, GLDPT),在双路径变换器结构中引入局部密集合成注意力机制(Local Dense Synthesizer Attention, LDSA),以增强对局部信息的感知能力。我们在VoiceBank+DEMAND和WHAMR!数据集上对所提出的D²Net进行了评估,并开展了消融实验。同时,为验证D²Net在不同任务下的性能,我们在WHAMR!数据集中选取了三类数据,分别用于测试去噪仅任务、去混响仅任务以及同时去噪与去混响任务。实验结果表明,所提出的模型在各项任务中均优于对比模型,且在同时去噪与去混响、仅去混响以及仅去噪任务上均取得了更优性能,同时保持了较少的网络参数量。

基准测试

基准方法指标
speech-enhancement-on-demandD²Net
CBAK: 3.18
COVL: 3.92
CSIG: 4.63
PESQ (wb): 3.27
STOI: 96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
D²Net:一种基于双分支编码器与双路径Transformer的去噪与去混响网络 | 论文 | HyperAI超神经