
摘要
基于音频线索的目标说话人提取(Target Speaker Extraction, TSE)研究主要集中在建模混合语音和参考语音上,由于大量数据集的可用性,该领域在英语中的性能已经达到了较高水平。然而,对于人类语音在不同语言中的一致性特征,研究的关注较少。为了弥补这一差距,我们提出了一种替代模型,该模型能够在无需微调的情况下解决从一种语言到另一种语言的TSE模型迁移问题。在这项工作中,我们设计了一种门控机制,能够根据说话人的声学特征调整特定频率。该模型在干净的英语语音上的SI-SDR得分为17.3544,在混有Wham!噪声的干净语音上的SI-SDR得分为13.2032,其适应不同语言的能力超过了所有其他模型。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-separation-on-libri2mix | WHYV | SDR: 17.2458 SI-SDRi: 17.5 |
| speech-separation-on-wham | WHYV | SI-SDRi: 12.964 |