
摘要
在本研究中,我们基于之前的出版物,利用扩散生成模型进行语音增强。本文详细介绍了基于随机微分方程的扩散过程,并对其理论意义进行了深入探讨。与通常的条件生成任务不同,我们的逆向过程不是从纯高斯噪声开始,而是从带噪语音和高斯噪声的混合信号开始。这与我们的前向过程相匹配,该过程通过引入漂移项将干净语音转换为带噪语音。我们展示了这一方法能够在仅使用30个扩散步骤的情况下生成高质量的干净语音估计。通过调整网络架构,我们显著提高了语音增强性能,表明在原始方法中,网络而非形式化框架是主要限制因素。在广泛的跨数据集评估中,我们展示了改进的方法可以与最近的判别模型竞争,并且在评估数据集不同于训练数据集时表现出更好的泛化能力。我们还通过使用真实世界中的带噪录音进行仪器评估以及一项听觉实验来补充这些结果,在听觉实验中,所提出的方法被评为最佳。通过对不同的采样器配置进行分析以解决逆向过程问题,我们能够在性能和计算速度之间取得平衡。此外,我们还证明了所提出的方法也适用于去混响(dereverberation),因此不仅限于去除加性背景噪声。代码和音频示例可在以下网址在线获取:https://github.com/sp-uhh/sgmse
代码仓库
sp-uhh/sgmse
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-dereverberation-on-ears-reverb | SGMSE+ | ESTOI: 0.85 MOS Reverb: 4.73 PESQ-WB: 3.03 SI-SDR: 5.79 SIGMOS: 3.49 |
| speech-enhancement-on-demand | SGMSE+ (Diffusion Model) | PESQ (wb): 2.93 |
| speech-enhancement-on-ears-wham | SGMSE+ | DNSMOS: 3.88 ESTOI: 0.73 PESQ-WB: 2.50 POLQA: 3.40 SI-SDR: 16.78 SIGMOS: 3.41 |