3 个月前

BAT:面向内存高效与低延迟自动语音识别的边界感知转换器

BAT:面向内存高效与低延迟自动语音识别的边界感知转换器

摘要

近年来,循环神经网络转换器(Recurrent Neural Network Transducer, RNN-T)因其天然的流式处理能力以及优异的性能而受到越来越多的关注。然而,RNN-T的训练过程需要大量的时间和计算资源,主要原因是其损失函数的计算效率较低且内存开销较大。此外,RNN-T的一个固有局限在于,为获得更优性能,模型倾向于访问更多的上下文信息,从而导致在流式自动语音识别(Streaming ASR)中产生较高的输出延迟。针对这一问题,本文提出了一种边界感知转换器(Boundary-aware Transducer, BAT),旨在实现高效内存利用与低延迟的流式ASR。在BAT中,RNN-T损失计算所依赖的解码格(lattice)被限制在由连续积分-放电(Continuous Integrate-and-Fire, CIF)模型对齐结果所确定的局部区域内,该区域与RNN-T模型联合优化。大量实验结果表明,相较于传统的RNN-T,BAT在训练阶段显著降低了时间和内存消耗,并在推理阶段实现了良好的词错误率(CER)与延迟之间的权衡,适用于实时流式语音识别场景。

代码仓库

基准测试

基准方法指标
speech-recognition-on-aishell-1BAT
Params(M): 90
Word Error Rate (WER): 4.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BAT:面向内存高效与低延迟自动语音识别的边界感知转换器 | 论文 | HyperAI超神经