
摘要
本文报告了在无需任何外部训练数据的情况下,端到端语音识别模型在LibriSpeech数据集上的最新成果。我们的模型Jasper仅使用一维卷积、批归一化、ReLU激活函数、dropout以及残差连接。为了改进训练效果,我们进一步引入了一种新的逐层优化器——NovoGrad。通过实验,我们证明所提出的深度架构在性能上与更复杂的选择相当或更优。我们最深的Jasper变体使用了54个卷积层。利用这一架构,我们在LibriSpeech测试集(test-clean)上使用带有外部神经语言模型的束搜索解码器达到了2.95%的词错误率(WER),而使用贪婪解码器则达到了3.86%的词错误率。此外,我们在《华尔街日报》和Hub5'00对话评估数据集上也取得了具有竞争力的结果。
代码仓库
TensorSpeech/TensorFlowASR
tf
GitHub 中提及
sooftware/jasper-pytorch
pytorch
GitHub 中提及
sooftware/OpenSpeech
pytorch
GitHub 中提及
marka17/digit-recognition
pytorch
GitHub 中提及
osmr/imgclsmob
mxnet
GitHub 中提及
stefanpantic/asr
tf
GitHub 中提及
msalhab96/SpeeQ
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-hub500-switchboard | Jasper DR 10x5 | CallHome: 16.2 SwitchBoard: 7.8 |
| speech-recognition-on-librispeech-test-clean | Jasper DR 10x5 | Word Error Rate (WER): 2.95 |
| speech-recognition-on-librispeech-test-clean | Jasper DR 10x5 (+ Time/Freq Masks) | Word Error Rate (WER): 2.84 |
| speech-recognition-on-librispeech-test-other | Jasper DR 10x5 (+ Time/Freq Masks) | Word Error Rate (WER): 7.84 |
| speech-recognition-on-librispeech-test-other | Jasper DR 10x5 | Word Error Rate (WER): 8.79 |
| speech-recognition-on-wsj-eval92 | Jasper 10x3 | Word Error Rate (WER): 6.9 |