3 个月前

基于自监督学习的多任务语音激活框架

基于自监督学习的多任务语音激活框架

摘要

自监督学习方法(如 wav2vec 2.0)在从无标签、无转录的语音数据中学习具有实用价值的语音表征方面展现了令人瞩目的成果,这些表征可有效提升语音识别性能。由于这些表征是在无需特定任务监督的情况下学习得到的,因此也可广泛应用于其他语音激活任务,例如说话人验证、关键词检测、情感分类等。在本研究中,我们提出了一种通用框架,用于将预训练的 wav2vec 2.0 模型适配至多种语音激活任务。我们设计了下游网络架构,作用于 wav2vec 2.0 所生成的上下文感知语音表征,以实现对特定任务的表征优化。此外,我们进一步扩展该框架,通过共享的 Transformer 主干网络,联合优化多个语音激活任务的网络参数,实现多任务学习。无论是单任务还是多任务框架,我们的方法在说话人验证与关键词检测基准测试中均取得了当前最优性能。在分别基于 VoxCeleb2 和 VoxCeleb1 数据集训练的情况下,我们的最优模型在 VoxCeleb1 测试集上分别实现了 1.98% 和 3.15% 的等错误率(EER);在 Google Speech Commands v1.0 关键词检测数据集上,准确率达到了 98.23%。

基准测试

基准方法指标
speaker-verification-on-voxcelebMulti Task SSL
EER: 1.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自监督学习的多任务语音激活框架 | 论文 | HyperAI超神经