3 个月前

基于多流自注意力与扩张1D卷积的最先进语音识别

基于多流自注意力与扩张1D卷积的最先进语音识别

摘要

自注意力机制在自然语言处理(NLP)的诸多下游任务中取得了巨大成功,这促使研究者探索将其应用于语音处理任务。然而,自注意力机制在语音应用中的实际效果尚未完全发挥,主要原因在于其在处理高度相关的语音帧时面临挑战。为此,本文提出一种新型神经网络模型架构——多流自注意力(multi-stream self-attention),旨在提升自注意力机制在语音识别中的有效性。所提出的模型架构由多个并行的自注意力编码器流组成,每个流包含多层一维卷积(1D convolution),其卷积核采用扩张(dilated)结构,且每一流具有唯一的扩张率;随后接一个自注意力层。在每一流中,自注意力机制仅关注输入语音帧的单一时间分辨率,从而使得注意力计算更加高效。在后续阶段,所有流的输出被拼接(concatenated)后,通过线性投影生成最终的嵌入表示。通过堆叠多个所提出的多流自注意力编码器模块,并利用神经网络语言模型对生成的词网(lattice)进行重打分(rescoring),我们在LibriSpeech语料库的test-clean数据集上取得了2.2%的词错误率(Word Error Rate),为该数据集目前报道的最佳结果。

代码仓库

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanMulti-Stream Self-Attention With Dilated 1D Convolutions
Word Error Rate (WER): 2.20
speech-recognition-on-librispeech-test-otherMulti-Stream Self-Attention With Dilated 1D Convolutions
Word Error Rate (WER): 5.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多流自注意力与扩张1D卷积的最先进语音识别 | 论文 | HyperAI超神经