4 个月前

全卷积语音识别

全卷积语音识别

摘要

当前最先进的语音识别系统基于循环神经网络进行声学建模和/或语言建模,并依赖特征提取管道来提取梅尔滤波器组或倒谱系数。本文提出了一种完全基于卷积神经网络的替代方法,利用了从原始波形中提取声学模型和语言建模方面的最新进展。这种全卷积方法端到端地训练,直接从原始波形预测字符,完全去除了特征提取步骤。外部卷积语言模型用于解码单词。在《华尔街日报》数据集上,我们的模型达到了目前的最先进水平。在LibriSpeech数据集上,我们报告了在端到端模型中的最先进性能,包括使用12倍更多声学数据和显著更多语言数据训练的Deep Speech 2。

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanConvolutional Speech Recognition
Word Error Rate (WER): 3.26
speech-recognition-on-librispeech-test-otherConvolutional Speech Recognition
Word Error Rate (WER): 10.47
speech-recognition-on-wsj-dev93Convolutional Speech Recognition
Word Error Rate (WER): 6.8
speech-recognition-on-wsj-eval92Convolutional Speech Recognition
Word Error Rate (WER): 3.5
speech-recognition-on-wsj-eval93Convolutional Speech Recognition
Word Error Rate (WER): 6.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全卷积语音识别 | 论文 | HyperAI超神经