
摘要
尽管目标端单语数据已被证明可通过反向翻译(back translation)有效提升神经机器翻译(简称NMT)性能,但源端单语数据尚未得到充分研究。本文旨在探讨如何同时利用源端与目标端单语数据以提升NMT效果,并提出一种高效融合两类数据的策略。首先,我们使用在真实双语语料上预训练的模型,将两个语域的单语数据相互翻译,生成合成双语语料。随后,在拼接后的合成双语语料上训练一个模型,其中每个源序列均被随机添加噪声以增强鲁棒性。最后,该模型在真实双语语料以及部分合成双语语料的干净版本上进行微调,且不再引入噪声。实验结果表明,该方法在WMT16、WMT17、WMT18的英德互译任务以及WMT19的德法翻译任务上均取得了当前最优性能,充分验证了所提方法的有效性。此外,本文还对整个流程中各环节的作用进行了系统性分析与深入研究。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt2016-english-german | Exploiting Mono at Scale (single) | SacreBLEU: 40.9 |
| machine-translation-on-wmt2016-german-english | Exploiting Mono at Scale (single) | SacreBLEU: 47.5 |
| machine-translation-on-wmt2019-english-german | Exploiting Mono at Scale (single) | SacreBLEU: 43.8 |
| machine-translation-on-wmt2019-german-english | Exploiting Mono at Scale (single) | SacreBLEU: 41.9 |