6 个月前

音频和语音处理

多任务学习

Zhifu Gao Zerui Li Jiaming Wang Haoneng Luo Xian Shi Mengzhe Chen Yabin Li Lingyun Zuo Zhihao Du Zhangyu Xiao

摘要

本文介绍了FunASR——一个开源的语音识别工具包，旨在弥合学术研究与工业应用之间的鸿沟。FunASR提供基于大规模工业语料库训练的模型，并支持其在实际应用中的部署。该工具包的核心模型Paraformer是一种非自回归的端到端语音识别模型，其训练数据为包含6万小时语音的手动标注普通话语音识别数据集。为进一步提升Paraformer的性能，我们在标准Paraformer主干网络的基础上，新增了时间戳预测与关键词定制功能。此外，为便于模型部署，我们开源了基于前馈序列记忆网络（FSMN-VAD）的语音活动检测模型，以及基于可控时延Transformer（CT-Transformer）的文本后处理标点恢复模型，二者均在工业语料上进行训练。这些功能模块共同构成了构建高精度长音频语音识别服务的坚实基础。相较于在公开数据集上训练的其他模型，Paraformer展现出更优越的识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

音频和语音处理

多任务学习

Zhifu Gao Zerui Li Jiaming Wang Haoneng Luo Xian Shi Mengzhe Chen Yabin Li Lingyun Zuo Zhihao Du Zhangyu Xiao

摘要

本文介绍了FunASR——一个开源的语音识别工具包，旨在弥合学术研究与工业应用之间的鸿沟。FunASR提供基于大规模工业语料库训练的模型，并支持其在实际应用中的部署。该工具包的核心模型Paraformer是一种非自回归的端到端语音识别模型，其训练数据为包含6万小时语音的手动标注普通话语音识别数据集。为进一步提升Paraformer的性能，我们在标准Paraformer主干网络的基础上，新增了时间戳预测与关键词定制功能。此外，为便于模型部署，我们开源了基于前馈序列记忆网络（FSMN-VAD）的语音活动检测模型，以及基于可控时延Transformer（CT-Transformer）的文本后处理标点恢复模型，二者均在工业语料上进行训练。这些功能模块共同构成了构建高精度长音频语音识别服务的坚实基础。相较于在公开数据集上训练的其他模型，Paraformer展现出更优越的识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供