3 个月前

通道注意力密集U-Net用于多通道语音增强

通道注意力密集U-Net用于多通道语音增强

摘要

近年来,监督式深度学习在语音增强领域受到广泛关注。当前最先进的深度学习方法通过学习一个比率掩码或二值掩码,在时频域对混合信号进行处理,从而还原出干净语音。尽管在单通道场景下表现优异,这些方法在多通道场景下的性能仍显不足,主要原因在于:a)未能充分挖掘可用的空间信息;b)仍将深度网络架构视为“黑箱”,这可能并不适用于多通道音频处理任务。本文针对上述问题,提出两项改进:a)采用复数比率掩码(complex ratio masking)而非仅对谱图幅度进行掩码,以更完整地保留相位信息;b)更重要的是,在深度网络架构中引入通道注意力机制(channel-attention mechanism),以模拟波束成形(beamforming)的效果。为此,我们提出了一种名为通道注意力密集U-Net(Channel-Attention Dense U-Net)的新型网络结构,该结构在每一层的特征图上递归地应用通道注意力单元,使网络能够实现非线性的波束成形。实验结果表明,该方法在CHiME-3数据集上的性能显著优于现有最先进方法。

代码仓库

基准测试

基准方法指标
speech-enhancement-on-chime-3Dense U-Net (Real)
SDR: 16.855
speech-enhancement-on-chime-3Noisy/unprocessed
PESQ: 1.27
SDR: 6.50
speech-enhancement-on-chime-3Dense U-Net (Complex)
SDR: 18.402
speech-enhancement-on-chime-3U-Net (Real)
PESQ: 2.176
SDR: 15.967
speech-enhancement-on-chime-3CA Dense U-Net (Complex)
PESQ: 2.436
SDR: 18.635
ΔPESQ: 1.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通道注意力密集U-Net用于多通道语音增强 | 论文 | HyperAI超神经