8 个月前

音频和语音处理

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

摘要

本文提出了一种基于薛定谔桥（Schrödinger Bridge, SB）的生成式语音增强模型。该模型采用一种可计算的薛定谔桥来建立干净语音分布与观测到的带噪语音分布之间的数据到数据过程。模型通过数据预测损失进行训练，旨在恢复复值干净语音系数，并使用辅助时域损失来改进模型的训练效果。本文在两个不同的语音增强任务中评估了所提出的基于薛定谔桥的模型的有效性：语音去噪和语音去混响。实验结果表明，所提出的基于薛定谔桥的模型在语音质量指标和自动语音识别（ASR）性能方面优于扩散模型，例如，在去噪任务中相对于最佳基线模型实现了20%的相对词错误率降低，在去混响任务中则实现了6%的相对词错误率降低。此外，所提出的模型还展示了更高的效率，在相同采样步数下比基线模型获得更好的质量，并且计算成本更低。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

音频和语音处理

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

摘要

本文提出了一种基于薛定谔桥（Schrödinger Bridge, SB）的生成式语音增强模型。该模型采用一种可计算的薛定谔桥来建立干净语音分布与观测到的带噪语音分布之间的数据到数据过程。模型通过数据预测损失进行训练，旨在恢复复值干净语音系数，并使用辅助时域损失来改进模型的训练效果。本文在两个不同的语音增强任务中评估了所提出的基于薛定谔桥的模型的有效性：语音去噪和语音去混响。实验结果表明，所提出的基于薛定谔桥的模型在语音质量指标和自动语音识别（ASR）性能方面优于扩散模型，例如，在去噪任务中相对于最佳基线模型实现了20%的相对词错误率降低，在去混响任务中则实现了6%的相对词错误率降低。此外，所提出的模型还展示了更高的效率，在相同采样步数下比基线模型获得更好的质量，并且计算成本更低。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供