6 个月前

Julius Richter Danilo de Oliveira Timo Gerkmann

摘要

生成式语音增强技术近年来在提升嘈杂环境下的语音质量方面展现出令人瞩目的进展。目前已涌现出多种基于扩散模型（diffusion-based）的框架，各框架采用不同的训练目标与学习策略。本文旨在通过聚焦于基于得分的生成模型（score-based generative models）与薛定谔桥（Schrödinger bridge）方法，系统阐释这些框架之间的差异。我们开展了一系列全面的实验，对各类方法的性能进行对比，并揭示其在训练过程中的不同行为特征。此外，本文提出一种专为薛定谔桥框架设计的新型感知损失函数，实验结果表明该方法显著提升了语音增强效果，并显著改善了增强语音的感知质量。本文所有实验代码及预训练模型均已公开，以促进该领域后续研究与技术发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Julius Richter Danilo de Oliveira Timo Gerkmann

摘要

生成式语音增强技术近年来在提升嘈杂环境下的语音质量方面展现出令人瞩目的进展。目前已涌现出多种基于扩散模型（diffusion-based）的框架，各框架采用不同的训练目标与学习策略。本文旨在通过聚焦于基于得分的生成模型（score-based generative models）与薛定谔桥（Schrödinger bridge）方法，系统阐释这些框架之间的差异。我们开展了一系列全面的实验，对各类方法的性能进行对比，并揭示其在训练过程中的不同行为特征。此外，本文提出一种专为薛定谔桥框架设计的新型感知损失函数，实验结果表明该方法显著提升了语音增强效果，并显著改善了增强语音的感知质量。本文所有实验代码及预训练模型均已公开，以促进该领域后续研究与技术发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供