
摘要
生成式语音增强技术近年来在提升嘈杂环境下的语音质量方面展现出令人瞩目的进展。目前已涌现出多种基于扩散模型(diffusion-based)的框架,各框架采用不同的训练目标与学习策略。本文旨在通过聚焦于基于得分的生成模型(score-based generative models)与薛定谔桥(Schrödinger bridge)方法,系统阐释这些框架之间的差异。我们开展了一系列全面的实验,对各类方法的性能进行对比,并揭示其在训练过程中的不同行为特征。此外,本文提出一种专为薛定谔桥框架设计的新型感知损失函数,实验结果表明该方法显著提升了语音增强效果,并显著改善了增强语音的感知质量。本文所有实验代码及预训练模型均已公开,以促进该领域后续研究与技术发展。
代码仓库
sp-uhh/sgmse
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-enhancement-on-demand | Schrödinger bridge (PESQ loss) | PESQ (wb): 3.70 |
| speech-enhancement-on-ears-wham | Schrödinger Bridge (PESQ loss) | DNSMOS: 3.72 ESTOI: 0.73 PESQ-WB: 3.09 POLQA: 3.71 SI-SDR: 16.29 SIGMOS: 3.18 |