4 个月前

Jasper:端到端卷积神经声学模型

Jasper:端到端卷积神经声学模型

摘要

本文报告了在无需任何外部训练数据的情况下,端到端语音识别模型在LibriSpeech数据集上的最新成果。我们的模型Jasper仅使用一维卷积、批归一化、ReLU激活函数、dropout以及残差连接。为了改进训练效果,我们进一步引入了一种新的逐层优化器——NovoGrad。通过实验,我们证明所提出的深度架构在性能上与更复杂的选择相当或更优。我们最深的Jasper变体使用了54个卷积层。利用这一架构,我们在LibriSpeech测试集(test-clean)上使用带有外部神经语言模型的束搜索解码器达到了2.95%的词错误率(WER),而使用贪婪解码器则达到了3.86%的词错误率。此外,我们在《华尔街日报》和Hub5'00对话评估数据集上也取得了具有竞争力的结果。

代码仓库

TensorSpeech/TensorFlowASR
tf
GitHub 中提及
sooftware/jasper-pytorch
pytorch
GitHub 中提及
sooftware/OpenSpeech
pytorch
GitHub 中提及
marka17/digit-recognition
pytorch
GitHub 中提及
osmr/imgclsmob
mxnet
GitHub 中提及
stefanpantic/asr
tf
GitHub 中提及
msalhab96/SpeeQ
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-hub500-switchboardJasper DR 10x5
CallHome: 16.2
SwitchBoard: 7.8
speech-recognition-on-librispeech-test-cleanJasper DR 10x5
Word Error Rate (WER): 2.95
speech-recognition-on-librispeech-test-cleanJasper DR 10x5 (+ Time/Freq Masks)
Word Error Rate (WER): 2.84
speech-recognition-on-librispeech-test-otherJasper DR 10x5 (+ Time/Freq Masks)
Word Error Rate (WER): 7.84
speech-recognition-on-librispeech-test-otherJasper DR 10x5
Word Error Rate (WER): 8.79
speech-recognition-on-wsj-eval92Jasper 10x3
Word Error Rate (WER): 6.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Jasper:端到端卷积神经声学模型 | 论文 | HyperAI超神经