Yiming WangTongfei ChenHainan XuShuoyang DingHang LvYiwen ShaoNanyun PengLei XieShinji WatanabeSanjeev Khudanpur

摘要
我们提出 Espresso,这是一个基于深度学习框架 PyTorch 以及流行的神经机器翻译工具包 fairseq 构建的开源、模块化且可扩展的端到端神经自动语音识别(ASR)工具包。Espresso 支持跨 GPU 和计算节点的分布式训练,并集成了语音识别中常用的多种解码方法,其中包括前瞻性的基于词的语言模型融合技术,该技术已通过一个高效且并行化的解码器实现。在无需数据增强的情况下,Espresso 在 WSJ、LibriSpeech 和 Switchboard 等数据集上的端到端 ASR 性能达到当前领先水平,且其解码速度比同类系统(如 ESPnet)快 4 到 11 倍。
代码仓库
freewym/espresso
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-hub500-callhome | Espresso | Word Error Rate (WER): 19.1 |
| speech-recognition-on-hub500-switchboard | Espresso | Eval2000: 9.2 |
| speech-recognition-on-librispeech-test-clean | Espresso | Word Error Rate (WER): 2.8 |
| speech-recognition-on-librispeech-test-other | Espresso | Word Error Rate (WER): 8.7 |
| speech-recognition-on-wsj-eval92 | Espresso | Word Error Rate (WER): 3.4 |