Command Palette
Search for a command to run...
用于低延迟语音识别的 amortized 神经网络
用于低延迟语音识别的 amortized 神经网络
Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow
摘要
我们提出了一种名为 amortized 神经网络(Amortized Neural Networks, AmNets)的网络架构,该架构在计算成本和延迟方面具有感知能力,特别适用于序列建模任务。我们将 AmNets 应用于循环神经网络转换器(Recurrent Neural Network Transducer, RNN-T),以降低自动语音识别(Automatic Speech Recognition, ASR)任务中的计算开销与延迟。AmNets-RNN-T 架构使网络能够在逐帧的基础上动态切换编码器的不同分支。这些分支以不同的计算成本和模型容量构建。本文中,我们通过两种广为人知的技术实现了可变计算量:一种基于稀疏剪枝(sparse pruning),另一种基于矩阵分解(matrix factorization)。逐帧切换由一个开销极低的仲裁网络(arbitrator network)决定,其计算负担几乎可以忽略不计。我们在 LibriSpeech 数据集上对这两种架构进行了实验验证,结果表明,所提出的 AmNets 架构可在不损失识别准确率的前提下,将推理成本降低高达 45%,并将延迟降至接近实时水平。