3 个月前

PoCoNet:基于频域位置嵌入、半监督对话数据与偏置损失的更优语音增强

PoCoNet:基于频域位置嵌入、半监督对话数据与偏置损失的更优语音增强

摘要

神经网络应用通常受益于更大规模的模型,但当前语音增强模型在面对训练数据之外的多样化真实应用场景时,往往因模型规模扩大而导致鲁棒性下降。本文提出多项创新,显著提升了语音增强任务中大型神经网络的性能。首先,我们提出了新颖的PoCoNet架构,这是一种卷积神经网络,通过引入频域位置嵌入(frequency-positional embeddings),能够在网络的早期层更高效地构建依赖于频率的特征表示。其次,采用一种半监督方法,通过对噪声数据集进行预增强,有效扩充了对话式语音训练数据量,从而提升了模型在真实录音上的表现。此外,我们设计了一种新的损失函数,该函数偏向于保留语音质量,使优化过程更符合人类对语音质量的主观感知。消融实验以及客观指标与人工主观评分结果均验证了所提方法的有效性与优势。

基准测试

基准方法指标
speech-enhancement-on-deep-noise-suppressionPoCoNet
PESQ-WB: 2.7885

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PoCoNet:基于频域位置嵌入、半监督对话数据与偏置损失的更优语音增强 | 论文 | HyperAI超神经