3 个月前

PrimeK-Net:基于分组素数核卷积神经网络的多尺度谱学习用于单通道语音增强

PrimeK-Net:基于分组素数核卷积神经网络的多尺度谱学习用于单通道语音增强

摘要

单通道语音增强是一个具有挑战性的不适定问题,其核心在于从退化信号中估计出干净语音。现有研究已证明,将卷积神经网络(CNN)与Transformer相结合在语音增强任务中具有优异的性能。然而,现有框架在计算效率方面尚未得到充分优化,并且忽视了频谱固有的多尺度分布特性。此外,CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题,本文提出了一种深度可分离空洞密集块(Deep Separable Dilated Dense Block, DSDDB)以及一种分组质数核前馈通道注意力模块(Group Prime Kernel Feedforward Channel Attention, GPFCA)。具体而言,DSDDB通过引入更高的参数与计算效率,有效提升了现有编码器/解码器架构的性能;GPFCA模块取代了Conformer中的位置,以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络(Group Prime Kernel Feedforward Network, GPFN),融合了多粒度的长程、中程与短程感受野,同时利用质数的数学特性避免了周期性重叠效应。实验结果表明,本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优(SOTA)性能,PESQ得分高达3.61,且仅需141万参数。

代码仓库

huaidanquede/PrimeK-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-enhancement-on-demandPrimeK-Net
CBAK: 3.98
COVL: 4.35
CSIG: 4.81
PESQ (wb): 3.61
Para. (M): 1.41
STOI: 96

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PrimeK-Net:基于分组素数核卷积神经网络的多尺度谱学习用于单通道语音增强 | 论文 | HyperAI超神经