4 个月前

IBM 2016 英语会话电话语音识别系统

IBM 2016 英语会话电话语音识别系统

摘要

我们描述了一组声学建模和语言建模技术,这些技术将我们的英语会话电话连续语音识别(LVCSR)系统的单词错误率降低到了在Hub5 2000评估测试集的Switchboard子集上的创纪录的6.6%。在声学建模方面,我们采用了三种强大的模型的得分融合:具有最大输出激活函数的循环神经网络、使用3x3卷积核的非常深的卷积神经网络以及在FMLLR和i-vector特征上运行的双向长短时记忆网络。在语言建模方面,我们使用了更新后的模型“M”和分层神经网络语言模型(Hierarchical Neural Network LMs)。

基准测试

基准方法指标
speech-recognition-on-swb_hub_500-werRNN + VGG + LSTM acoustic model trained on SWB+Fisher+CH, N-gram + "model M" + NNLM language model
Percentage error: 12.2
speech-recognition-on-switchboard-hub500RNN + VGG + LSTM acoustic model trained on SWB+Fisher+CH, N-gram + "model M" + NNLM language model
Percentage error: 6.6
speech-recognition-on-switchboard-hub500IBM 2016
Percentage error: 6.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
IBM 2016 英语会话电话语音识别系统 | 论文 | HyperAI超神经