4 个月前

分离与扩散:利用预训练扩散模型改进源分离

分离与扩散:利用预训练扩散模型改进源分离

摘要

语音分离问题,也称为鸡尾酒会问题,指的是从多个语音信号的混合中分离出单一语音信号的任务。以往关于源分离的研究在人类语音领域为源分离任务设定了一个上限。这一上限是基于确定性模型推导出来的。然而,近年来生成模型的发展对这一上限提出了挑战。本文展示了如何将该上限推广到随机生成模型的情况。通过将预训练的扩散模型声码器应用于确定性分离模型的输出,可以实现当前最先进的分离效果。研究表明,这需要将分离模型的输出与扩散模型的输出结合起来。在我们的方法中,这种结合是在频域中通过一个学习模型推断出的权重进行线性组合来完成的。我们在多个基准测试中展示了针对2、3、5、10和20个说话人的最先进结果。特别是对于两个说话人的情况,我们的方法能够超越之前认为的性能上限。

基准测试

基准方法指标
speech-separation-on-libri10mixSeparate And Diffuse
SI-SDRi: 9
speech-separation-on-libri20mixSeparate And Diffuse
SI-SDRi: 5.2
speech-separation-on-libri2mixSeparate And Diffuse
SI-SDRi: 21.5
speech-separation-on-libri5mixSeparate And Diffuse
SI-SDRi: 14.2
speech-separation-on-wsj0-2mixSeparate And Diffuse
SI-SDRi: 23.9
speech-separation-on-wsj0-3mixSeparate And Diffuse
SI-SDRi: 20.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
分离与扩散:利用预训练扩散模型改进源分离 | 论文 | HyperAI超神经