Shigeki KaritaNanxin ChenTomoki HayashiTakaaki HoriHirofumi InagumaZiyan JiangMasao SomekiNelson Enrique Yalta SoplinRyuichi YamamotoXiaofei WangShinji WatanabeTakenori YoshimuraWangyou Zhang

摘要
序列到序列(sequence-to-sequence)模型在端到端语音处理任务中得到了广泛应用,例如自动语音识别(ASR)、语音翻译(ST)以及文本到语音合成(TTS)。本文聚焦于一种新兴的序列到序列模型——Transformer,该模型在神经机器翻译及其他自然语言处理任务中已取得当前最优性能。我们开展了系统性研究,通过实验对比与分析了Transformer与传统循环神经网络(RNN)在共计15个单语种ASR、1个多语言ASR、1个ST以及2个TTS基准任务上的表现。实验结果揭示了多项有效的训练技巧,并展示了Transformer在各项任务中带来的显著性能提升,尤其令人意外的是,在15个ASR基准中的13个上,Transformer的表现显著优于RNN。为推动社区进一步复现与拓展本研究的成果,我们正准备发布基于Kaldi风格的可复现训练方案,涵盖所有ASR、ST与TTS任务,所用数据集均为开源且公开可用,以支持研究的可重复性与持续发展。
代码仓库
espnet/espnet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-aishell-1 | CTC/Att | Word Error Rate (WER): 6.7 |
| speech-recognition-on-librispeech-test-clean | Transformer | Word Error Rate (WER): 2.6 |
| speech-recognition-on-librispeech-test-other | Transformer | Word Error Rate (WER): 5.7 |