
摘要
单通道语音增强是一个具有挑战性的不适定问题,其核心在于从退化信号中估计出干净语音。现有研究已证明,将卷积神经网络(CNN)与Transformer相结合在语音增强任务中具有优异的性能。然而,现有框架在计算效率方面尚未得到充分优化,并且忽视了频谱固有的多尺度分布特性。此外,CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题,本文提出了一种深度可分离空洞密集块(Deep Separable Dilated Dense Block, DSDDB)以及一种分组质数核前馈通道注意力模块(Group Prime Kernel Feedforward Channel Attention, GPFCA)。具体而言,DSDDB通过引入更高的参数与计算效率,有效提升了现有编码器/解码器架构的性能;GPFCA模块取代了Conformer中的位置,以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络(Group Prime Kernel Feedforward Network, GPFN),融合了多粒度的长程、中程与短程感受野,同时利用质数的数学特性避免了周期性重叠效应。实验结果表明,本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优(SOTA)性能,PESQ得分高达3.61,且仅需141万参数。
代码仓库
huaidanquede/PrimeK-Net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | PrimeK-Net | CBAK: 3.98 COVL: 4.35 CSIG: 4.81 PESQ (wb): 3.61 Para. (M): 1.41 STOI: 96 |