3 个月前

AutoSpeech:面向说话人识别的神经架构搜索

AutoSpeech:面向说话人识别的神经架构搜索

摘要

基于卷积神经网络(CNN)的说话人识别系统通常采用现成的骨干网络(backbone),如VGG-Net或ResNet。然而,这些骨干网络最初是为图像分类任务设计的,因此在说话人识别任务中可能并非最优选择。由于手动探索网络结构空间的复杂度极高,本文提出首个专为说话人识别任务设计的神经架构搜索方法,命名为AutoSpeech。该算法首先在神经单元(neural cell)中搜索最优的操作组合,随后通过多次堆叠该神经单元,构建出完整的CNN模型。最终的说话人识别模型可通过标准训练流程对所生成的CNN模型进行训练获得。为验证所提方法的有效性,我们在VoxCeleb1数据集上对说话人识别与说话人验证任务进行了实验。实验结果表明,由AutoSpeech生成的CNN架构在性能上显著优于当前基于VGG-M、ResNet-18和ResNet-34骨干网络的说话人识别系统,同时模型复杂度更低,展现出更优的性能-效率平衡。

代码仓库

JeongwookUm/TEST_AutoSpeech-master
pytorch
GitHub 中提及
TAMU-VITA/AutoSpeech
官方
pytorch
GitHub 中提及
VITA-Group/AutoSpeech
pytorch
GitHub 中提及

基准测试

基准方法指标
speaker-identification-on-voxceleb1AutoSpeech (N=8,C=128)
Accuracy: 87.66
Number of Params: 18M
Top-1 (%): 87.66
Top-5 (%): 96.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AutoSpeech:面向说话人识别的神经架构搜索 | 论文 | HyperAI超神经