3 个月前

基于单头注意力的序列到序列模型在Switchboard数据集上实现最先进性能

基于单头注意力的序列到序列模型在Switchboard数据集上实现最先进性能

摘要

普遍认为,只有在拥有至少一千小时规模的训练数据时,端到端的序列到序列(seq2seq)语音识别模型才能与混合模型相媲美。本文表明,仅采用单一注意力头、基于LSTM的模型,即可在Switchboard-300数据集上实现当前最先进的识别性能。通过引入跨话语语言模型,我们的单次遍历、说话人无关系统在Hub5'00的Switchboard和CallHome子集上分别取得了6.4%和12.5%的词错误率(WER),且无需使用发音词典。尽管精心设计的正则化策略与数据增强技术对于达到这一性能水平至关重要,但在Switchboard-2000上的实验进一步表明,数据量的增加仍是提升性能最有效的手段。总体而言,结合多种正则化方法与一个结构简单但规模较大的模型,我们实现了新的最优水平:在Switchboard和CallHome数据集上分别达到4.7%和7.8%的WER,且仅使用SWB-2000数据,无需依赖任何外部数据资源。

基准测试

基准方法指标
speech-recognition-on-swb_hub_500-werIBM (LSTM encoder-decoder)
Percentage error: 7.8
speech-recognition-on-switchboard-hub500IBM (LSTM encoder-decoder)
Percentage error: 4.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于单头注意力的序列到序列模型在Switchboard数据集上实现最先进性能 | 论文 | HyperAI超神经