3 个月前

生成式语音增强的训练目标研究

生成式语音增强的训练目标研究

摘要

生成式语音增强技术近年来在提升嘈杂环境下的语音质量方面展现出令人瞩目的进展。目前已涌现出多种基于扩散模型(diffusion-based)的框架,各框架采用不同的训练目标与学习策略。本文旨在通过聚焦于基于得分的生成模型(score-based generative models)与薛定谔桥(Schrödinger bridge)方法,系统阐释这些框架之间的差异。我们开展了一系列全面的实验,对各类方法的性能进行对比,并揭示其在训练过程中的不同行为特征。此外,本文提出一种专为薛定谔桥框架设计的新型感知损失函数,实验结果表明该方法显著提升了语音增强效果,并显著改善了增强语音的感知质量。本文所有实验代码及预训练模型均已公开,以促进该领域后续研究与技术发展。

代码仓库

sp-uhh/sgmse
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-enhancement-on-demandSchrödinger bridge (PESQ loss)
PESQ (wb): 3.70
speech-enhancement-on-ears-whamSchrödinger Bridge (PESQ loss)
DNSMOS: 3.72
ESTOI: 0.73
PESQ-WB: 3.09
POLQA: 3.71
SI-SDR: 16.29
SIGMOS: 3.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
生成式语音增强的训练目标研究 | 论文 | HyperAI超神经