3 个月前

多解码器DPRNN:高精度源数量估计与分离

多解码器DPRNN:高精度源数量估计与分离

摘要

我们提出了一种端到端可训练的单通道语音分离方法,适用于说话人数量未知的场景。该方法在MulCat语音分离主干网络的基础上,引入了额外的输出头:一个计数头(count-head),用于推断说话人数量;以及多个解码头(decoder-heads),用于重建原始语音信号。此外,我们还提出了一种新的评估指标,用于衡量在说话人数量可变情况下的语音分离性能。具体而言,我们解决了在真实标签中的说话人数量与模型预测数量不一致时,如何准确评估分离质量的问题。我们在WSJ0-mix数据集上进行了实验,处理的语音混合最多包含五位说话人。实验结果表明,我们的方法在说话人数量估计方面优于现有最先进方法,同时在重建语音信号的质量上也保持了较强的竞争力。

基准测试

基准方法指标
speech-separation-on-wsj0-4mixMulti-Decoder DPRNN
SI-SDRi: 9.3
speech-separation-on-wsj0-5mixMulti-Decoder DPRNN
SI-SDRi: 5.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多解码器DPRNN:高精度源数量估计与分离 | 论文 | HyperAI超神经