3 个月前

CAT:一种基于CTC-CRF的ASR工具包,连接混合式与端到端方法,实现数据高效性与低延迟

CAT:一种基于CTC-CRF的ASR工具包,连接混合式与端到端方法,实现数据高效性与低延迟

摘要

本文提出了一种新的开源语音识别工具包,名为CAT(基于CTC-CRF的自动语音识别工具包)。CAT继承了混合模型的数据高效性与端到端(E2E)模型的简洁性,提供了CTC-CRF模型的完整实现,以及多个英文和中文基准数据集的完整训练与测试脚本。实验结果表明,CAT取得了当前最先进的性能,其效果可与Kaldi中微调后的混合模型相媲美,但训练流程显著简化。相较于现有非模块化的E2E模型,CAT在小规模数据集上表现更优,充分体现了其数据高效性。此外,我们提出了一种名为“上下文感知的软遗忘”(contextualized soft forgetting)的新方法,使CAT能够在实现流式语音识别的同时,保持高识别准确率,避免性能下降。我们期望CAT,尤其是基于CTC-CRF的框架与软件,能够引起社区的广泛关注,并推动进一步的研究与优化。

代码仓库

thu-spmi/cat
官方
pytorch

基准测试

基准方法指标
speech-recognition-on-aishell-1CTC-CRF 4gram-LM
Word Error Rate (WER): 6.34
speech-recognition-on-hub5-00-fisher-swbdCTC-CRF
Word Error Rate (WER): 12
speech-recognition-on-hub500-switchboardCTC-CRF
CallHome: 18.4
Hub5'00: 14.1
SwitchBoard: 9.7
speech-recognition-on-wsj-dev93CTC-CRF VGG-BLSTM
Word Error Rate (WER): 5.7
speech-recognition-on-wsj-eval92CTC-CRF VGG-BLSTM
Word Error Rate (WER): 3.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CAT:一种基于CTC-CRF的ASR工具包,连接混合式与端到端方法,实现数据高效性与低延迟 | 论文 | HyperAI超神经