3 个月前

ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包

ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包

摘要

本文介绍了ESPnet-SPK,一个专为训练说话人嵌入提取器而设计的工具包,旨在实现多项目标。首先,我们为说话人识别领域的研究人员提供了一个开源平台,使其能够轻松构建模型。该工具包集成了从x-vector到最新提出的SKA-TDNN等多种模型。通过模块化架构设计,研究人员可便捷地开发模型变体。同时,我们致力于促进已训练模型在其他领域的应用,推动更广泛的科研群体能够无缝集成当前最先进的嵌入提取器。用户可即插即用地获取预训练的嵌入提取器,并通过两个任务的集成实例展示了该工具包的通用性。此外,本工作还旨在与多种自监督学习特征实现良好集成。我们发布了一个可复现的训练方案,在Vox1-O评估协议上,基于WavLM-Large与ECAPA-TDNN的组合,实现了0.39%的等错误率(Equal Error Rate, EER)。

代码仓库

espnet/espnet
官方
pytorch
Jungjee/RawNet
tf
GitHub 中提及

基准测试

基准方法指标
speaker-recognition-on-voxceleb1WavLM+ECAPA-TDNN
EER: 0.39
speaker-verification-on-voxcelebWavLM+ECAPA-TDNN
EER: 0.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ESPnet-SPK:具备可复现的流程、自监督前端模块以及即插即用模型的完整语音说话人嵌入工具包 | 论文 | HyperAI超神经