
摘要
我们描述了一组声学建模和语言建模技术,这些技术将我们的英语会话电话连续语音识别(LVCSR)系统的单词错误率降低到了在Hub5 2000评估测试集的Switchboard子集上的创纪录的6.6%。在声学建模方面,我们采用了三种强大的模型的得分融合:具有最大输出激活函数的循环神经网络、使用3x3卷积核的非常深的卷积神经网络以及在FMLLR和i-vector特征上运行的双向长短时记忆网络。在语言建模方面,我们使用了更新后的模型“M”和分层神经网络语言模型(Hierarchical Neural Network LMs)。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-swb_hub_500-wer | RNN + VGG + LSTM acoustic model trained on SWB+Fisher+CH, N-gram + "model M" + NNLM language model | Percentage error: 12.2 |
| speech-recognition-on-switchboard-hub500 | RNN + VGG + LSTM acoustic model trained on SWB+Fisher+CH, N-gram + "model M" + NNLM language model | Percentage error: 6.6 |
| speech-recognition-on-switchboard-hub500 | IBM 2016 | Percentage error: 6.9 |