6 个月前

摘要

神经网络应用通常受益于更大规模的模型，但当前语音增强模型在面对训练数据之外的多样化真实应用场景时，往往因模型规模扩大而导致鲁棒性下降。本文提出多项创新，显著提升了语音增强任务中大型神经网络的性能。首先，我们提出了新颖的PoCoNet架构，这是一种卷积神经网络，通过引入频域位置嵌入（frequency-positional embeddings），能够在网络的早期层更高效地构建依赖于频率的特征表示。其次，采用一种半监督方法，通过对噪声数据集进行预增强，有效扩充了对话式语音训练数据量，从而提升了模型在真实录音上的表现。此外，我们设计了一种新的损失函数，该函数偏向于保留语音质量，使优化过程更符合人类对语音质量的主观感知。消融实验以及客观指标与人工主观评分结果均验证了所提方法的有效性与优势。

源 PDF