4 个月前

微软2016年会话语音识别系统

微软2016年会话语音识别系统

摘要

我们描述了微软的对话语音识别系统,该系统结合了基于神经网络的声学模型和语言模型的最新进展,以提升在Switchboard识别任务上的技术水平。受机器学习集成技术的启发,该系统采用了多种卷积神经网络和循环神经网络。I-向量建模和无晶格最大互信息(Lattice-free MMI)训练为所有声学模型架构带来了显著的性能提升。通过多个前向和后向运行的递归神经网络语言模型(RNNLM)进行语言模型重评分,以及基于词后验概率的系统组合,提供了20%的性能提升。最佳单一系统使用了ResNet架构的声学模型,并结合了RNNLM重评分,在NIST 2000 Switchboard任务中达到了6.9%的词错误率。组合系统的错误率为6.2%,这标志着在此基准任务上相比之前报告的结果有了显著改进。

基准测试

基准方法指标
speech-recognition-on-swb_hub_500-werVGG/Resnet/LACE/BiLSTM acoustic model trained on SWB+Fisher+CH, N-gram + RNNLM language model trained on Switchboard+Fisher+Gigaword+Broadcast
Percentage error: 11.9
speech-recognition-on-switchboard-hub500Microsoft 2016
Percentage error: 6.2
speech-recognition-on-switchboard-hub500VGG/Resnet/LACE/BiLSTM acoustic model trained on SWB+Fisher+CH, N-gram + RNNLM language model trained on Switchboard+Fisher+Gigaword+Broadcast
Percentage error: 6.3
speech-recognition-on-switchboard-hub500RNNLM
Percentage error: 6.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
微软2016年会话语音识别系统 | 论文 | HyperAI超神经