HyperAIHyperAI

Command Palette

Search for a command to run...

BAT:面向内存高效与低延迟自动语音识别的边界感知转换器

Keyu An Xian Shi Shiliang Zhang

摘要

近年来,循环神经网络转换器(Recurrent Neural Network Transducer, RNN-T)因其天然的流式处理能力以及优异的性能而受到越来越多的关注。然而,RNN-T的训练过程需要大量的时间和计算资源,主要原因是其损失函数的计算效率较低且内存开销较大。此外,RNN-T的一个固有局限在于,为获得更优性能,模型倾向于访问更多的上下文信息,从而导致在流式自动语音识别(Streaming ASR)中产生较高的输出延迟。针对这一问题,本文提出了一种边界感知转换器(Boundary-aware Transducer, BAT),旨在实现高效内存利用与低延迟的流式ASR。在BAT中,RNN-T损失计算所依赖的解码格(lattice)被限制在由连续积分-放电(Continuous Integrate-and-Fire, CIF)模型对齐结果所确定的局部区域内,该区域与RNN-T模型联合优化。大量实验结果表明,相较于传统的RNN-T,BAT在训练阶段显著降低了时间和内存消耗,并在推理阶段实现了良好的词错误率(CER)与延迟之间的权衡,适用于实时流式语音识别场景。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供