3 个月前

松弛注意力:一种提升端到端自动语音识别性能的简单方法

松弛注意力:一种提升端到端自动语音识别性能的简单方法

摘要

近年来,基于注意力机制的编码器-解码器(AED)模型在多个端到端自动语音识别(ASR)任务中表现出优异性能。针对此类模型存在的过自信问题,本文提出“松弛注意力”(relaxed attention)的概念:在训练过程中,通过简单地逐步向编码器-解码器注意力权重中注入均匀分布,即可有效缓解过自信现象,该方法仅需两行代码即可实现。我们在多种AED模型架构以及两个主流ASR任务——华尔街日报(Wall Street Journal, WSJ)和Librispeech上系统评估了松弛注意力的效果。实验结果表明,采用松弛注意力训练的Transformer模型在使用外部语言模型进行解码时,性能始终优于标准基线模型。在WSJ任务上,该方法取得了3.65%的词错误率(WER),相较当前最先进水平(4.20%)相对提升13.1%,创下基于Transformer的端到端语音识别新纪录,且仅引入了一个超参数。

代码仓库

freewym/espresso
官方
pytorch

基准测试

基准方法指标
speech-recognition-on-librispeech-test-otherConformer with Relaxed Attention
Word Error Rate (WER): 6.85
speech-recognition-on-wsj-eval92Transformer with Relaxed Attention
Word Error Rate (WER): 3.19

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供