6 个月前

卷积神经网络

音频和语音处理

Zizhen Lin Junyu Wang Ruili Li Fei Shen Xi Xuan

摘要

单通道语音增强是一个具有挑战性的不适定问题，其核心在于从退化信号中估计出干净语音。现有研究已证明，将卷积神经网络（CNN）与Transformer相结合在语音增强任务中具有优异的性能。然而，现有框架在计算效率方面尚未得到充分优化，并且忽视了频谱固有的多尺度分布特性。此外，CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题，本文提出了一种深度可分离空洞密集块（Deep Separable Dilated Dense Block, DSDDB）以及一种分组质数核前馈通道注意力模块（Group Prime Kernel Feedforward Channel Attention, GPFCA）。具体而言，DSDDB通过引入更高的参数与计算效率，有效提升了现有编码器/解码器架构的性能；GPFCA模块取代了Conformer中的位置，以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络（Group Prime Kernel Feedforward Network, GPFN），融合了多粒度的长程、中程与短程感受野，同时利用质数的数学特性避免了周期性重叠效应。实验结果表明，本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优（SOTA）性能，PESQ得分高达3.61，且仅需141万参数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

音频和语音处理

Zizhen Lin Junyu Wang Ruili Li Fei Shen Xi Xuan

摘要

单通道语音增强是一个具有挑战性的不适定问题，其核心在于从退化信号中估计出干净语音。现有研究已证明，将卷积神经网络（CNN）与Transformer相结合在语音增强任务中具有优异的性能。然而，现有框架在计算效率方面尚未得到充分优化，并且忽视了频谱固有的多尺度分布特性。此外，CNN在语音增强中的潜力尚未被充分挖掘。为解决上述问题，本文提出了一种深度可分离空洞密集块（Deep Separable Dilated Dense Block, DSDDB）以及一种分组质数核前馈通道注意力模块（Group Prime Kernel Feedforward Channel Attention, GPFCA）。具体而言，DSDDB通过引入更高的参数与计算效率，有效提升了现有编码器/解码器架构的性能；GPFCA模块取代了Conformer中的位置，以线性复杂度提取频谱的深层时序与频域特征。该模块基于所提出的分组质数核前馈网络（Group Prime Kernel Feedforward Network, GPFN），融合了多粒度的长程、中程与短程感受野，同时利用质数的数学特性避免了周期性重叠效应。实验结果表明，本文提出的PrimeK-Net在VoiceBank+Demand数据集上达到了当前最优（SOTA）性能，PESQ得分高达3.61，且仅需141万参数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

PrimeK-Net：基于分组素数核卷积神经网络的多尺度谱学习用于单通道语音增强 | 论文 | HyperAI超神经