3 个月前

基于最优排列训练的多说话人单通道语音分离

基于最优排列训练的多说话人单通道语音分离

摘要

近年来,单通道语音分离技术取得了显著进展。然而,当前方法依赖于排列不变损失(Permutation Invariant Loss, PIT),难以实现对大量说话人(例如超过10人)的神经语音分离训练。本文提出一种新型排列不变训练方法,采用匈牙利算法(Hungarian algorithm),将时间复杂度降低至 $O(C^3)$,其中 $C$ 为说话人数量,相较于基于 PIT 的方法 $O(C!)$ 的复杂度有显著优化。此外,我们还设计了一种改进的网络架构,能够有效应对说话人数量增加带来的挑战。实验结果表明,所提方法可实现最多20名说话人的语音分离,并在大规模说话人场景下显著超越以往方法的性能。

代码仓库

shakeddovrat/librimix
官方
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-libri10mixHungarian PIT
SI-SDRi: 7.78
speech-separation-on-libri15mixHungarian PIT
SI-SDRi: 5.66
speech-separation-on-libri20mixHungarian PIT
SI-SDRi: 4.26
speech-separation-on-libri5mixHungarian PIT
SI-SDRi: 12.72
speech-separation-on-wsj0-5mixHungarian PIT
SI-SDRi: 13.22

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于最优排列训练的多说话人单通道语音分离 | 论文 | HyperAI超神经