
摘要
语音分离技术已取得显著进展,其中最具成效的方法之一是排列不变训练(Permutation Invariant Training, PIT)。然而,在追求更优收敛速度和更高性能时,PIT训练过程中频繁发生的标签分配切换问题仍是一个亟待解决的挑战。本文提出通过自监督预训练来稳定语音分离模型训练过程中的标签分配。在多种自监督方法、典型语音分离模型以及两个不同数据集上的实验结果表明,若能选择合适的自监督方法,可实现显著的性能提升。
代码仓库
SungFeng-Huang/SSL-pretraining-separation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-libri2mix | Conv-Tasnet (Libri1Mix speech enhancement pre-trained) | SDRi: 14.6 SI-SDRi: 14.1 |
| speech-separation-on-libri2mix | Conv-Tasnet (Libri1Mix speech enhancement multi-task) | SDRi: 14.1 SI-SDRi: 13.7 |
| speech-separation-on-libri2mix | Conv-Tasnet | SDRi: 13.6 SI-SDRi: 13.2 |
| speech-separation-on-wsj0-2mix | DPTNet (Libri1Mix speech enhancement pre-trained) | SDRi: 21.5 SI-SDRi: 21.3 |