4 个月前

用于连续语音识别的非常深的多语言卷积神经网络

用于连续语音识别的非常深的多语言卷积神经网络

摘要

卷积神经网络(CNNs)是许多当前最先进的大词汇量连续语音识别(LVCSR)系统中的标准组件。然而,LVCSR领域的CNNs并未跟上其他领域中深度神经网络的最新进展,后者在性能上提供了显著的优势。本文提出了几种用于LVCSR的CNN架构改进。首先,我们引入了一种非常深的卷积网络架构,最多包含14个权重层。在每个池化层之前有多层卷积层,使用小的3x3内核,这一设计灵感来源于VGG Imagenet 2014架构。其次,我们引入了多语言CNNs,其中包含多个未绑定的层。最后,我们引入了多尺度输入特征,旨在以几乎可以忽略的计算成本利用更多的上下文信息。我们在一个低资源语音识别任务——Babel任务上评估了这些改进的效果,通过在六种不同语言的组合数据上训练我们的CNN,相对于基线PLP DNN模型,绝对词错误率(WER)降低了5.77%。随后,我们在Hub5'00基准测试中评估了非常深的CNNs(使用262小时的SWB-1训练数据),经过交叉熵训练后,达到了11.8%的词错误率,相比迄今为止已发表的最佳CNN结果,绝对词错误率降低了1.4%,相对降低了10.6%。

基准测试

基准方法指标
speech-recognition-on-switchboard-hub500Deep CNN (10 conv, 4 FC layers), multi-scale feature maps
Percentage error: 12.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于连续语音识别的非常深的多语言卷积神经网络 | 论文 | HyperAI超神经