
摘要
我们推出了 fairseq S2T,这是 fairseq 框架针对语音到文本(Speech-to-Text, S2T)建模任务(如端到端语音识别和语音到文本翻译)的扩展。该工具遵循 fairseq 在可扩展性与可扩展性方面的严谨设计原则。我们提供了从数据预处理、模型训练到离线(在线)推理的完整端到端工作流程。fairseq S2T 实现了当前最先进的基于 RNN、Transformer 以及 Conformer 的模型,并开源了详细的训练方案(training recipes)。此外,fairseq 的机器翻译模型与语言模型可无缝集成至 S2T 工作流中,支持多任务学习或迁移学习。fairseq S2T 的文档与示例代码详见:https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text。
代码仓库
pytorch/fairseq
官方
pytorch
huggingface/transformers
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-to-text-translation-on-must-c-en-de | Transformer + ASR Pretrain | Case-sensitive sacreBLEU: 22.7 |