
摘要
一种有效的方法是通过增加目标语言句子的反向翻译来扩充平行训练语料库,从而提高神经机器翻译的质量。本研究扩展了对反向翻译的理解,并探讨了多种生成合成源句子的方法。研究发现,在资源不足的情况之外,通过采样或带有噪声的束搜索输出获得的反向翻译最为有效。分析表明,采样或带噪声的合成数据比通过束搜索或贪婪搜索生成的数据提供了更强的训练信号。我们还比较了合成数据与真实双语文本的效果,并研究了不同领域的效应。最后,我们将方法应用于数亿条单语文句,并在WMT'14英德测试集上达到了35 BLEU的新纪录。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt2014-english-french | Noisy back-translation | BLEU score: 45.6 Hardware Burden: 180G Operations per network pass: SacreBLEU: 43.8 |
| machine-translation-on-wmt2014-english-german | Noisy back-translation | BLEU score: 35.0 Hardware Burden: 146G Operations per network pass: SacreBLEU: 33.8 |