4 个月前

用于声学建模的深度递归神经网络

用于声学建模的深度递归神经网络

摘要

我们提出了一种新颖的深度循环神经网络(RNN)模型,用于自动语音识别(ASR)中的声学建模。我们将这一贡献称为TC-DNN-BLSTM-DNN模型,该模型结合了深度神经网络(DNN)与时间卷积(TC),随后通过双向长短期记忆(BLSTM)网络,最后再接一个DNN。第一个DNN作为特征处理器,为我们的模型提供输入;BLSTM则从序列声学信号中生成上下文信息;最终的DNN利用这些上下文信息,对声学状态的后验概率进行建模。我们在华尔街日报(WSJ)eval92任务上实现了3.47%的词错误率(WER),相比基线DNN模型,相对改进超过8%。

基准测试

基准方法指标
speech-recognition-on-wsj-eval92TC-DNN-BLSTM-DNN
Word Error Rate (WER): 3.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于声学建模的深度递归神经网络 | 论文 | HyperAI超神经