
摘要
虽然机器翻译传统上依赖于大量的平行语料库,但最近的研究方向已经成功地仅使用单语语料库训练了神经机器翻译(NMT)和统计机器翻译(SMT)系统。在本文中,我们通过利用子词信息、开发一种理论基础扎实的无监督调优方法以及引入联合精炼过程,识别并解决了现有无监督SMT方法中的若干不足之处。此外,我们使用改进后的SMT系统初始化了一个双模型NMT,并通过即时回译进一步微调该模型。综上所述,我们在无监督机器翻译方面取得了比以往最先进的方法更大的改进。例如,在2014年WMT英德翻译任务中,我们的系统达到了22.5的BLEU分数,比之前最佳的无监督系统高出5.5分,甚至比2014年的(有监督)共享任务获胜者高出0.5分。
代码仓库
artetxem/monoses
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-machine-translation-on-wmt2014 | SMT + NMT (tuning and joint refinement) | BLEU: 22.5 |
| unsupervised-machine-translation-on-wmt2014-1 | SMT + NMT (tuning and joint refinement) | BLEU: 33.5 |
| unsupervised-machine-translation-on-wmt2014-2 | SMT + NMT (tuning and joint refinement) | BLEU: 36.2 |
| unsupervised-machine-translation-on-wmt2014-3 | SMT + NMT (tuning and joint refinement) | BLEU: 27.0 |
| unsupervised-machine-translation-on-wmt2016 | SMT + NMT (tuning and joint refinement) | BLEU: 26.9 |
| unsupervised-machine-translation-on-wmt2016-1 | SMT + NMT (tuning and joint refinement) | BLEU: 34.4 |