3 个月前

3M:用于语音识别的多损失、多路径与多层级神经网络

3M:用于语音识别的多损失、多路径与多层级神经网络

摘要

近年来,基于Conformer的CTC/AED模型已成为自动语音识别(ASR)任务中的主流架构。本文在前期工作的基础上,提出并整合了多种改进方法,以进一步提升ASR性能,统称为“3M”模型,即多损失(multi-loss)、多路径(multi-path)与多层次(multi-level)策略。具体而言,多损失指联合优化CTC与AED损失函数;多路径采用专家混合(Mixture-of-Experts, MoE)架构,在不显著增加计算开销的前提下有效提升模型容量;多层次则是在深度模型的多个层级引入辅助损失,以辅助训练过程。我们在公开的WenetSpeech数据集上对所提方法进行了评估,实验结果表明,与使用Wenet工具链训练的基线模型相比,该方法在相对词错误率(CER)上实现了12.2%至17.6%的显著提升。在包含15万小时语音数据的超大规模语料库上,3M模型同样展现出相较于基线Conformer模型的明显优势。相关代码已公开,地址为:https://github.com/tencent-ailab/3m-asr。

代码仓库

tencent-ailab/3m-asr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-wenetspeechConformer-MoE (32e)
Character Error Rate (CER): 7.49
speech-recognition-on-wenetspeechConformer-MoE (16e)
Character Error Rate (CER): 7.67
speech-recognition-on-wenetspeechConformer-MoE (64e)
Character Error Rate (CER): 7.19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
3M:用于语音识别的多损失、多路径与多层级神经网络 | 论文 | HyperAI超神经