3 个月前

FunASR:一个基础的端到端语音识别工具包

FunASR:一个基础的端到端语音识别工具包

摘要

本文介绍了FunASR——一个开源的语音识别工具包,旨在弥合学术研究与工业应用之间的鸿沟。FunASR提供基于大规模工业语料库训练的模型,并支持其在实际应用中的部署。该工具包的核心模型Paraformer是一种非自回归的端到端语音识别模型,其训练数据为包含6万小时语音的手动标注普通话语音识别数据集。为进一步提升Paraformer的性能,我们在标准Paraformer主干网络的基础上,新增了时间戳预测与关键词定制功能。此外,为便于模型部署,我们开源了基于前馈序列记忆网络(FSMN-VAD)的语音活动检测模型,以及基于可控时延Transformer(CT-Transformer)的文本后处理标点恢复模型,二者均在工业语料上进行训练。这些功能模块共同构成了构建高精度长音频语音识别服务的坚实基础。相较于在公开数据集上训练的其他模型,Paraformer展现出更优越的识别性能。

代码仓库

基准测试

基准方法指标
speech-recognition-on-aishell-1Paraformer
Params(M): 46.3
Word Error Rate (WER): 4.95
speech-recognition-on-aishell-1Paraformer-large
Params(M): 220
Word Error Rate (WER): 1.95
speech-recognition-on-aishell-2Paraformer
Word Error Rate (WER): 5.73
speech-recognition-on-aishell-2Paraformer-large
Word Error Rate (WER): 2.85
speech-recognition-on-wenetspeechParaformer-large
Character Error Rate (CER): 6.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FunASR:一个基础的端到端语音识别工具包 | 论文 | HyperAI超神经