4 个月前

端到端语音识别的自适应计算步骤

端到端语音识别的自适应计算步骤

摘要

在本文中,我们提出了一种自适应计算步骤(Adaptive Computation Steps, ACS)算法,该算法使端到端语音识别模型能够动态决定需要处理多少帧来预测语言输出。应用了ACS算法的模型遵循编码器-解码器框架,但与基于注意力的模型不同,它利用相邻帧之间的相关性在编码器侧独立生成对齐。因此,只要接收到足够的声学信息,就可以立即进行预测,这使得该模型适用于在线场景。此外,我们在编码器-解码器框架的解码阶段进行了小幅修改,允许预测利用双向上下文。我们在普通话语音数据集AIShell-1上验证了ACS算法,在线场景下其字符错误率(CER)为31.2%,而基于注意力的模型的CER为32.4%。为了充分展示ACS算法的优势,我们还进行了离线实验,在这些实验中我们的ACS模型达到了18.7%的CER,优于基于注意力的模型22.0%的CER。

基准测试

基准方法指标
speech-recognition-on-aishell-1Att
Word Error Rate (WER): 18.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
端到端语音识别的自适应计算步骤 | 论文 | HyperAI超神经