
摘要
NeurST 是一个开源的神经语音翻译工具包,主要聚焦于端到端语音翻译任务。该工具包设计简洁、易于使用、可灵活修改与扩展,适用于先进的语音翻译研究及产品开发。NeurST 的目标是助力自然语言处理(NLP)研究人员推进语音翻译领域的研究,并构建可靠的基准测试体系。该工具包提供了从特征提取、数据预处理、分布式训练到评估的完整步骤指南。本文将详细介绍 NeurST 的框架设计,并展示其在多个基准数据集上的实验结果,这些结果可作为未来研究的可靠基线参考。NeurST 工具包已公开发布于 https://github.com/bytedance/neurst/,其性能将持续与其它相关方法及研究成果进行对比更新,相关进展可访问 https://st-benchmark.github.io/ 查看。
代码仓库
bytedance/neurst
官方
tf
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-to-text-translation-on-libri-trans | Transformer + ASR Pretrain + SpecAug | Case-insensitive sacreBLEU: 17.2 Case-insensitive tokenized BLEU: 18.7 Case-sensitive sacreBLEU: 16.3 Case-sensitive tokenized BLEU: 17.8 |
| speech-to-text-translation-on-libri-trans | Transformer + ASR Pretrain | Case-insensitive sacreBLEU: 16.5 Case-insensitive tokenized BLEU: 17.9 Case-sensitive sacreBLEU: 15.5 Case-sensitive tokenized BLEU: 16.9 |
| speech-to-text-translation-on-must-c-en-de | Transformer + ASR Pretrain | Case-sensitive sacreBLEU: 22.8 |
| speech-to-text-translation-on-must-c-en-es | Transformer + ASR Pretrain + SpecAug | Case-sensitive sacreBLEU: 27.4 |
| speech-to-text-translation-on-must-c-en-es | Transformer + ASR Pretrain | Case-sensitive sacreBLEU: 26.8 |
| speech-to-text-translation-on-must-c-en-fr | Transformer + ASR Pretrain | Case-sensitive sacreBLEU: 32.3 |
| speech-to-text-translation-on-must-c-en-fr | Transformer + ASR Pretrain + SpecAug | Case-sensitive sacreBLEU: 33.3 |