Zhifu GaoZerui LiJiaming WangHaoneng LuoXian ShiMengzhe ChenYabin LiLingyun ZuoZhihao DuZhangyu XiaoShiliang Zhang

摘要
本文介绍了FunASR——一个开源的语音识别工具包,旨在弥合学术研究与工业应用之间的鸿沟。FunASR提供基于大规模工业语料库训练的模型,并支持其在实际应用中的部署。该工具包的核心模型Paraformer是一种非自回归的端到端语音识别模型,其训练数据为包含6万小时语音的手动标注普通话语音识别数据集。为进一步提升Paraformer的性能,我们在标准Paraformer主干网络的基础上,新增了时间戳预测与关键词定制功能。此外,为便于模型部署,我们开源了基于前馈序列记忆网络(FSMN-VAD)的语音活动检测模型,以及基于可控时延Transformer(CT-Transformer)的文本后处理标点恢复模型,二者均在工业语料上进行训练。这些功能模块共同构成了构建高精度长音频语音识别服务的坚实基础。相较于在公开数据集上训练的其他模型,Paraformer展现出更优越的识别性能。
代码仓库
alibaba-damo-academy/FunASR
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-aishell-1 | Paraformer | Params(M): 46.3 Word Error Rate (WER): 4.95 |
| speech-recognition-on-aishell-1 | Paraformer-large | Params(M): 220 Word Error Rate (WER): 1.95 |
| speech-recognition-on-aishell-2 | Paraformer | Word Error Rate (WER): 5.73 |
| speech-recognition-on-aishell-2 | Paraformer-large | Word Error Rate (WER): 2.85 |
| speech-recognition-on-wenetspeech | Paraformer-large | Character Error Rate (CER): 6.97 |