4 个月前

基于扩散模型的语音增强与去混响

Julius Richter; Simon Welker; Jean-Marie Lemercier; Bunlong Lay; Timo Gerkmann

摘要

在本研究中，我们基于之前的出版物，利用扩散生成模型进行语音增强。本文详细介绍了基于随机微分方程的扩散过程，并对其理论意义进行了深入探讨。与通常的条件生成任务不同，我们的逆向过程不是从纯高斯噪声开始，而是从带噪语音和高斯噪声的混合信号开始。这与我们的前向过程相匹配，该过程通过引入漂移项将干净语音转换为带噪语音。我们展示了这一方法能够在仅使用30个扩散步骤的情况下生成高质量的干净语音估计。通过调整网络架构，我们显著提高了语音增强性能，表明在原始方法中，网络而非形式化框架是主要限制因素。在广泛的跨数据集评估中，我们展示了改进的方法可以与最近的判别模型竞争，并且在评估数据集不同于训练数据集时表现出更好的泛化能力。我们还通过使用真实世界中的带噪录音进行仪器评估以及一项听觉实验来补充这些结果，在听觉实验中，所提出的方法被评为最佳。通过对不同的采样器配置进行分析以解决逆向过程问题，我们能够在性能和计算速度之间取得平衡。此外，我们还证明了所提出的方法也适用于去混响（dereverberation），因此不仅限于去除加性背景噪声。代码和音频示例可在以下网址在线获取：https://github.com/sp-uhh/sgmse

代码仓库

sp-uhh/sgmse

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
speech-dereverberation-on-ears-reverb	SGMSE+	ESTOI: 0.85 MOS Reverb: 4.73 PESQ-WB: 3.03 SI-SDR: 5.79 SIGMOS: 3.49
speech-enhancement-on-demand	SGMSE+ (Diffusion Model)	PESQ (wb): 2.93
speech-enhancement-on-ears-wham	SGMSE+	DNSMOS: 3.88 ESTOI: 0.73 PESQ-WB: 2.50 POLQA: 3.40 SI-SDR: 16.78 SIGMOS: 3.41

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供