4 个月前

Schrödinger 桥用于生成式语音增强

Schrödinger 桥用于生成式语音增强

摘要

本文提出了一种基于薛定谔桥(Schrödinger Bridge, SB)的生成式语音增强模型。该模型采用一种可计算的薛定谔桥来建立干净语音分布与观测到的带噪语音分布之间的数据到数据过程。模型通过数据预测损失进行训练,旨在恢复复值干净语音系数,并使用辅助时域损失来改进模型的训练效果。本文在两个不同的语音增强任务中评估了所提出的基于薛定谔桥的模型的有效性:语音去噪和语音去混响。实验结果表明,所提出的基于薛定谔桥的模型在语音质量指标和自动语音识别(ASR)性能方面优于扩散模型,例如,在去噪任务中相对于最佳基线模型实现了20%的相对词错误率降低,在去混响任务中则实现了6%的相对词错误率降低。此外,所提出的模型还展示了更高的效率,在相同采样步数下比基线模型获得更好的质量,并且计算成本更低。

基准测试

基准方法指标
speech-enhancement-on-ears-whamSchrödinger Bridge
DNSMOS: 3.83
ESTOI: 0.73
PESQ-WB: 2.33
POLQA: 3.46
SI-SDR: 17.85
SIGMOS: 3.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Schrödinger 桥用于生成式语音增强 | 论文 | HyperAI超神经