4 个月前

利用策略学习改进端到端语音识别

利用策略学习改进端到端语音识别

摘要

连接时序分类(Connectionist Temporal Classification, CTC)在端到端语音识别模型的最大似然学习中被广泛应用。然而,通常情况下,负最大似然与语音识别中使用的性能指标(如词错误率(Word Error Rate, WER))之间存在差异。这导致了训练过程中目标函数与性能指标之间的不匹配。我们展示了通过联合最大似然和策略梯度进行训练可以缓解上述问题。特别是,通过策略学习,我们可以直接优化那些原本不可微分的性能指标。实验结果表明,联合训练相对于仅通过最大似然学习的相同模型,相对性能提高了4%至13%。该模型在华尔街日报数据集上达到了5.53%的WER,在LibriSpeech测试清洁集和测试其他集上的WER分别为5.42%和14.70%。

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanCTC + policy learning
Word Error Rate (WER): 5.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用策略学习改进端到端语音识别 | 论文 | HyperAI超神经