6 个月前

摘要

近年来，基于Conformer的CTC/AED模型已成为自动语音识别（ASR）任务中的主流架构。本文在前期工作的基础上，提出并整合了多种改进方法，以进一步提升ASR性能，统称为“3M”模型，即多损失（multi-loss）、多路径（multi-path）与多层次（multi-level）策略。具体而言，多损失指联合优化CTC与AED损失函数；多路径采用专家混合（Mixture-of-Experts, MoE）架构，在不显著增加计算开销的前提下有效提升模型容量；多层次则是在深度模型的多个层级引入辅助损失，以辅助训练过程。我们在公开的WenetSpeech数据集上对所提方法进行了评估，实验结果表明，与使用Wenet工具链训练的基线模型相比，该方法在相对词错误率（CER）上实现了12.2%至17.6%的显著提升。在包含15万小时语音数据的超大规模语料库上，3M模型同样展现出相较于基线Conformer模型的明显优势。相关代码已公开，地址为：https://github.com/tencent-ailab/3m-asr。

源 PDF