3 个月前

Espresso:一个快速的端到端神经语音识别工具包

Espresso:一个快速的端到端神经语音识别工具包

摘要

我们提出 Espresso,这是一个基于深度学习框架 PyTorch 以及流行的神经机器翻译工具包 fairseq 构建的开源、模块化且可扩展的端到端神经自动语音识别(ASR)工具包。Espresso 支持跨 GPU 和计算节点的分布式训练,并集成了语音识别中常用的多种解码方法,其中包括前瞻性的基于词的语言模型融合技术,该技术已通过一个高效且并行化的解码器实现。在无需数据增强的情况下,Espresso 在 WSJ、LibriSpeech 和 Switchboard 等数据集上的端到端 ASR 性能达到当前领先水平,且其解码速度比同类系统(如 ESPnet)快 4 到 11 倍。

代码仓库

freewym/espresso
官方
pytorch

基准测试

基准方法指标
speech-recognition-on-hub500-callhomeEspresso
Word Error Rate (WER): 19.1
speech-recognition-on-hub500-switchboardEspresso
Eval2000: 9.2
speech-recognition-on-librispeech-test-cleanEspresso
Word Error Rate (WER): 2.8
speech-recognition-on-librispeech-test-otherEspresso
Word Error Rate (WER): 8.7
speech-recognition-on-wsj-eval92Espresso
Word Error Rate (WER): 3.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Espresso:一个快速的端到端神经语音识别工具包 | 论文 | HyperAI超神经