3 个月前

多人语音分离(未知说话人数量)

多人语音分离(未知说话人数量)

摘要

我们提出了一种新的方法,用于分离同时发声的多语音混合音频序列。该方法采用门控神经网络,在多个处理步骤中训练以分离不同语音,同时保持每个输出通道中的说话人身份固定不变。针对每种可能的说话人数量,训练一个独立的模型,并在实际应用中,选用能处理最多说话人数的模型来确定给定音频样本中的真实说话人数。实验结果表明,该方法显著优于当前最先进的技术;如我们所展示的,现有方法在超过两个说话人的情况下已不具备竞争力。

代码仓库

Mack189/gdprnn
mindspore
GitHub 中提及
muhammad-ahmed-ghani/svoice_demo
pytorch
GitHub 中提及
facebookresearch/svoice
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-separation-on-whamrVSUNOS
SI-SDRi: 12.2
speech-separation-on-wsj0-2mixGated DualPathRNN
SI-SDRi: 20.12
speech-separation-on-wsj0-3mixGated DualPathRNN
SI-SDRi: 16.85
speech-separation-on-wsj0-4mixGated DualPathRNN
SI-SDRi: 12.88
speech-separation-on-wsj0-5mixGated DualPathRNN
SI-SDRi: 10.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多人语音分离(未知说话人数量) | 论文 | HyperAI超神经