3 个月前

Wavesplit:基于说话人聚类的端到端语音分离

Wavesplit:基于说话人聚类的端到端语音分离

摘要

我们提出Wavesplit,一种端到端的语音源分离系统。该模型仅需输入单一混合信号,即可推断出每个声源的表示,并基于这些推断出的表示估计各个声源的信号。模型在原始波形上联合训练,同时完成声源表示推断与信号重建两项任务。Wavesplit通过聚类方式推断一组声源表示,有效解决了分离任务中的根本性排列问题。在语音分离任务中,我们的序列级说话人表示相较于以往方法,能够更稳健地处理长时、复杂的语音录音。Wavesplit在2人或3人清晰混合语音(WSJ0-2mix/3mix)任务上重新定义了当前最优性能,同时在噪声与混响环境(WHAM/WHAMR)下也取得了显著提升。此外,我们在最新的LibriMix数据集上建立了新的基准。最后,我们还展示了Wavesplit在其他领域的适用性——仅通过单个腹部心电图信号,即可成功分离出胎儿与母体的心率信号。

基准测试

基准方法指标
speech-separation-on-whamrWavesplit
SI-SDRi: 13.2
speech-separation-on-wsj0-2mixWavesplit v2
SDRi: 22.3
SI-SDRi: 22.2
speech-separation-on-wsj0-2mixWavesplit v1
SI-SDRi: 19.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Wavesplit:基于说话人聚类的端到端语音分离 | 论文 | HyperAI超神经