7 个月前

摘要

卷积神经网络（CNNs）是许多当前最先进的大词汇量连续语音识别（LVCSR）系统中的标准组件。然而，LVCSR领域的CNNs并未跟上其他领域中深度神经网络的最新进展，后者在性能上提供了显著的优势。本文提出了几种用于LVCSR的CNN架构改进。首先，我们引入了一种非常深的卷积网络架构，最多包含14个权重层。在每个池化层之前有多层卷积层，使用小的3x3内核，这一设计灵感来源于VGG Imagenet 2014架构。其次，我们引入了多语言CNNs，其中包含多个未绑定的层。最后，我们引入了多尺度输入特征，旨在以几乎可以忽略的计算成本利用更多的上下文信息。我们在一个低资源语音识别任务——Babel任务上评估了这些改进的效果，通过在六种不同语言的组合数据上训练我们的CNN，相对于基线PLP DNN模型，绝对词错误率（WER）降低了5.77%。随后，我们在Hub5'00基准测试中评估了非常深的CNNs（使用262小时的SWB-1训练数据），经过交叉熵训练后，达到了11.8%的词错误率，相比迄今为止已发表的最佳CNN结果，绝对词错误率降低了1.4%，相对降低了10.6%。

源 PDF