Jee-weon JungWangyou ZhangJiatong ShiZakaria AldenehTakuya HiguchiBarry-John TheobaldAhmed Hussen AbdelazizShinji Watanabe

摘要
本文介绍了ESPnet-SPK,一个专为训练说话人嵌入提取器而设计的工具包,旨在实现多项目标。首先,我们为说话人识别领域的研究人员提供了一个开源平台,使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计,研究人员可便捷地开发模型变体。同时,我们致力于促进已训练模型在其他领域的应用,推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器,并通过两个任务的集成实例展示了该工具包的通用性。此外,本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案,在Vox1-O评估协议上,基于WavLM-Large与ECAPA-TDNN的组合,实现了0.39%的等错误率(Equal Error Rate, EER)。
代码仓库
espnet/espnet
官方
pytorch
Jungjee/RawNet
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speaker-recognition-on-voxceleb1 | WavLM+ECAPA-TDNN | EER: 0.39 |
| speaker-verification-on-voxceleb | WavLM+ECAPA-TDNN | EER: 0.39 |