4 个月前

SpeechNAS:实现大规模说话人验证中延迟与准确率之间的更好权衡

SpeechNAS:实现大规模说话人验证中延迟与准确率之间的更好权衡

摘要

近期,x-vector 成为了说话人验证中一种成功且流行的方法,该方法利用时延神经网络(TDNN)和统计池化技术从可变长度的语音片段中提取说话人的特征嵌入。对 x-vector 的改进一直是研究热点,基于 x-vector 设计了多种复杂的神经网络架构,例如扩展的 TDNN(E-TDNN)、因子分解的 TDNN(F-TDNN)和密集连接的 TDNN(D-TDNN)。在本工作中,我们尝试通过神经架构搜索(NAS)从基于 TDNN 的搜索空间中识别出最优的网络架构,并将其命名为 SpeechNAS。借助说话人识别领域的最新进展,如高阶统计池化、多分支机制、D-TDNN 和最小超球能量(MHE)下的角度加性边距 Softmax 损失(AAM),SpeechNAS 自动发现了五种不同参数量和 GFLOPs 的网络架构,从 SpeechNAS-1 到 SpeechNAS-5,在大规模文本无关的说话人识别数据集 VoxCeleb1 上进行了评估。我们所推导出的最佳神经网络在 VoxCeleb1 标准测试集上实现了 1.02% 的等错误率(EER),大幅超越了以往基于 TDNN 的最先进方法。代码和训练权重已发布在 https://github.com/wentaozhu/speechnas.git

代码仓库

wentaozhu/speechnas
官方
pytorch

基准测试

基准方法指标
speaker-verification-on-voxcelebSpeechNAS
EER: 1.02
speaker-verification-on-voxceleb1SpeechNAS
EER: 1.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SpeechNAS:实现大规模说话人验证中延迟与准确率之间的更好权衡 | 论文 | HyperAI超神经