3 个月前

用于多录入语音样本的自动说话人验证的注意力后端

用于多录入语音样本的自动说话人验证的注意力后端

摘要

在传统的说话人验证系统中,概率线性判别分析(PLDA)和余弦相似度作为后端技术被广泛用于度量语音样本之间的成对相似性。为了更充分地利用多个注册语音片段,本文提出了一种新型的注意力后端模型,该模型既适用于文本无关(TI)说话人验证,也适用于文本依赖(TD)说话人验证。该模型采用缩放点积自注意力(scaled-dot self-attention)与前馈自注意力网络(feed-forward self-attention networks)作为架构,以学习注册语音片段内部的内在关联关系。为验证所提注意力后端的有效性,我们将其与多种前沿说话人编码器(包括TDNN和ResNet)结合,在CNCeleb和VoxCeleb数据集上开展了一系列实验。在CNCeleb数据集上使用多个注册语音片段的实验结果表明,所提出的注意力后端模型在每种说话人编码器下均显著优于PLDA和余弦相似度方法,表现为更低的等错误率(EER)和最小检测代价函数(minDCF)得分;此外,在VoxCeleb数据集上的实验进一步表明,该模型在单注册语音场景下同样具备良好的适用性。

代码仓库

nii-yamagishilab/Attention_Backend_for_ASV
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speaker-verification-on-cn-celebResNet with Attention Backend
EER: 10.77
speaker-verification-on-cn-celebX-Vectors with Attention Backend
EER: 10.12

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于多录入语音样本的自动说话人验证的注意力后端 | 论文 | HyperAI超神经