
摘要
近年来,监督式深度学习在语音增强领域受到广泛关注。当前最先进的深度学习方法通过学习一个比率掩码或二值掩码,在时频域对混合信号进行处理,从而还原出干净语音。尽管在单通道场景下表现优异,这些方法在多通道场景下的性能仍显不足,主要原因在于:a)未能充分挖掘可用的空间信息;b)仍将深度网络架构视为“黑箱”,这可能并不适用于多通道音频处理任务。本文针对上述问题,提出两项改进:a)采用复数比率掩码(complex ratio masking)而非仅对谱图幅度进行掩码,以更完整地保留相位信息;b)更重要的是,在深度网络架构中引入通道注意力机制(channel-attention mechanism),以模拟波束成形(beamforming)的效果。为此,我们提出了一种名为通道注意力密集U-Net(Channel-Attention Dense U-Net)的新型网络结构,该结构在每一层的特征图上递归地应用通道注意力单元,使网络能够实现非线性的波束成形。实验结果表明,该方法在CHiME-3数据集上的性能显著优于现有最先进方法。
代码仓库
XiangzhuKong/CA-Dense-UNet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-chime-3 | Dense U-Net (Real) | SDR: 16.855 |
| speech-enhancement-on-chime-3 | Noisy/unprocessed | PESQ: 1.27 SDR: 6.50 |
| speech-enhancement-on-chime-3 | Dense U-Net (Complex) | SDR: 18.402 |
| speech-enhancement-on-chime-3 | U-Net (Real) | PESQ: 2.176 SDR: 15.967 |
| speech-enhancement-on-chime-3 | CA Dense U-Net (Complex) | PESQ: 2.436 SDR: 18.635 ΔPESQ: 1.16 |