6 个月前

自然语言处理

自然语言处理

Timo Lohrenz Patrick Schwarz Zhengyang Li Tim Fingscheidt

摘要

近年来，基于注意力机制的编码器-解码器（AED）模型在多个端到端自动语音识别（ASR）任务中表现出优异性能。针对此类模型存在的过自信问题，本文提出“松弛注意力”（relaxed attention）的概念：在训练过程中，通过简单地逐步向编码器-解码器注意力权重中注入均匀分布，即可有效缓解过自信现象，该方法仅需两行代码即可实现。我们在多种AED模型架构以及两个主流ASR任务——华尔街日报（Wall Street Journal, WSJ）和Librispeech上系统评估了松弛注意力的效果。实验结果表明，采用松弛注意力训练的Transformer模型在使用外部语言模型进行解码时，性能始终优于标准基线模型。在WSJ任务上，该方法取得了3.65%的词错误率（WER），相较当前最先进水平（4.20%）相对提升13.1%，创下基于Transformer的端到端语音识别新纪录，且仅引入了一个超参数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Timo Lohrenz Patrick Schwarz Zhengyang Li Tim Fingscheidt

摘要

近年来，基于注意力机制的编码器-解码器（AED）模型在多个端到端自动语音识别（ASR）任务中表现出优异性能。针对此类模型存在的过自信问题，本文提出“松弛注意力”（relaxed attention）的概念：在训练过程中，通过简单地逐步向编码器-解码器注意力权重中注入均匀分布，即可有效缓解过自信现象，该方法仅需两行代码即可实现。我们在多种AED模型架构以及两个主流ASR任务——华尔街日报（Wall Street Journal, WSJ）和Librispeech上系统评估了松弛注意力的效果。实验结果表明，采用松弛注意力训练的Transformer模型在使用外部语言模型进行解码时，性能始终优于标准基线模型。在WSJ任务上，该方法取得了3.65%的词错误率（WER），相较当前最先进水平（4.20%）相对提升13.1%，创下基于Transformer的端到端语音识别新纪录，且仅引入了一个超参数。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供