
摘要
从网络、文档或其他来源自动获取的大规模平行语料库通常包含许多损坏的部分,这些部分必然会负面影响从这些语料库中学习的系统和模型的质量。本文描述了数据中常见的问题以及这些问题如何影响神经机器翻译系统,并介绍了识别和处理这些问题的方法。解决方案汇总为一组脚本,用于从输入语料库中移除有问题的句子。
代码仓库
M4t1ss/parallel-corpora-tools
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt-2017-english | Transformer trained on highly filtered data | BLEU: 22.89 |
| machine-translation-on-wmt-2017-latvian | Transformer trained on highly filtered data | BLEU: 24.37 |
| machine-translation-on-wmt-2018-english-1 | Transformer trained on highly filtered data | BLEU: 17.40 |
| machine-translation-on-wmt-2018-finnish | Transformer trained on highly filtered data | BLEU: 24.00 |