4 个月前

关于英语会话语音识别的极限

关于英语会话语音识别的极限

摘要

在我们之前的研究中,我们已经证明了单头注意力编码器-解码器模型能够在对话语音识别中达到最先进的结果。本文中,我们在Switchboard 300和2000数据集上进一步提高了这些结果。通过使用改进的优化器、说话人向量嵌入以及替代的语音表示方法,我们将LSTM系统在Switchboard-300上的识别错误率相对降低了4%。通过概率比方法对解码器模型进行补偿,可以更有效地集成外部语言模型,我们在Hub5'00的SWB和CHM部分分别报告了5.9%和11.5%的词错误率(WER),所使用的LSTM模型非常简单。我们的研究还考虑了最近提出的Conformer模型以及更为先进的基于自注意力机制的语言模型。总体而言,Conformer的表现与LSTM相似;然而,它们的组合以及使用改进的语言模型进行解码,在Switchboard-300上达到了新的记录,SWB和CHM部分的词错误率分别为5.0%和10.0%。我们的发现也在Switchboard-2000数据集上得到了验证,并报告了新的最先进水平,实际上已达到该基准测试的极限。

基准测试

基准方法指标
speech-recognition-on-swb_hub_500-werIBM (LSTM+Conformer encoder-decoder)
Percentage error: 6.8
speech-recognition-on-switchboard-hub500IBM (LSTM+Conformer encoder-decoder)
Percentage error: 4.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
关于英语会话语音识别的极限 | 论文 | HyperAI超神经