
摘要
连续语音分离在复杂语音相关任务(如对话转录)中发挥着至关重要的作用,其目标是从混合语音中提取出单一说话人的语音信号。本文在语音分离系统中采用Transformer和Conformer模型,取代传统的循环神经网络(RNN),我们认为基于自注意力机制的方法能够有效捕捉全局语音信息,这对语音分离任务至关重要。在LibriCSS数据集上的实验结果表明,所提出的Conformer分离模型取得了当前最优的性能:在逐句评估中,相比双向LSTM(BLSTM),词错误率(WER)相对降低23.5%;在连续评估中,WER相对降低15.4%。
代码仓库
Sanyuan-Chen/CSS_with_Conformer
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-libricss | Conformer (large) | 0L: 5.0 0S: 5.4 10%: 7.5 20%: 10.7 30%: 13.8 40%: 17.1 |
| speech-separation-on-libricss | Conformer (base) | 0L: 5.4 0S: 5.6 10%: 8.2 20%: 11.8 30%: 15.5 40%: 18.9 |