3 个月前

基于Transformer与RNN在语音应用中的对比研究

基于Transformer与RNN在语音应用中的对比研究

摘要

序列到序列(sequence-to-sequence)模型在端到端语音处理任务中得到了广泛应用,例如自动语音识别(ASR)、语音翻译(ST)以及文本到语音合成(TTS)。本文聚焦于一种新兴的序列到序列模型——Transformer,该模型在神经机器翻译及其他自然语言处理任务中已取得当前最优性能。我们开展了系统性研究,通过实验对比与分析了Transformer与传统循环神经网络(RNN)在共计15个单语种ASR、1个多语言ASR、1个ST以及2个TTS基准任务上的表现。实验结果揭示了多项有效的训练技巧,并展示了Transformer在各项任务中带来的显著性能提升,尤其令人意外的是,在15个ASR基准中的13个上,Transformer的表现显著优于RNN。为推动社区进一步复现与拓展本研究的成果,我们正准备发布基于Kaldi风格的可复现训练方案,涵盖所有ASR、ST与TTS任务,所用数据集均为开源且公开可用,以支持研究的可重复性与持续发展。

基准测试

基准方法指标
speech-recognition-on-aishell-1CTC/Att
Word Error Rate (WER): 6.7
speech-recognition-on-librispeech-test-cleanTransformer
Word Error Rate (WER): 2.6
speech-recognition-on-librispeech-test-otherTransformer
Word Error Rate (WER): 5.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer与RNN在语音应用中的对比研究 | 论文 | HyperAI超神经