3 个月前

统一的流式与非流式两阶段端到端语音识别模型

统一的流式与非流式两阶段端到端语音识别模型

摘要

本文提出了一种新颖的两阶段方法,旨在通过单一模型统一流式与非流式端到端(E2E)语音识别。该模型采用混合CTC/注意力架构,其中编码器中的Conformer层进行了相应改进。我们提出了一种动态分块注意力机制,以支持任意长度的右文上下文。在推理阶段,CTC解码器以流式方式生成n-best候选结果,通过调整分块大小即可轻松控制推理延迟。随后,这些CTC候选结果由注意力解码器进行重评分,以获得最终识别结果。该高效的重评分过程带来的句级延迟极小。在公开的170小时AISHELL-1数据集上的实验表明,所提出的方法能够简洁而高效地实现流式与非流式模型的统一。在AISHELL-1测试集上,该统一模型相较于标准非流式Transformer模型,在非流式语音识别任务中实现了5.60%的相对字符错误率(CER)降低;而在流式语音识别系统中,仅需640ms延迟即可达到5.42%的CER。

代码仓库

TeaPoly/Conformer-Athena
tf
GitHub 中提及
Vill-Lab/2023-TMM-Grad-SAS
pytorch
GitHub 中提及
joseewei/wenet
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-aishell-1U2
Params(M): 47
Word Error Rate (WER): 4.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
统一的流式与非流式两阶段端到端语音识别模型 | 论文 | HyperAI超神经