
摘要
机器翻译系统在某些语言上已经达到了接近人类水平的性能,但其有效性在很大程度上依赖于大量平行句对的存在,这限制了它们在大多数语言对中的应用。本研究探讨了仅利用每种语言的大规模单语语料库进行翻译学习的方法。我们提出了两种模型变体,一种是神经网络模型,另一种是基于短语的模型。这两种版本都利用了参数的精心初始化、语言模型的去噪效果以及通过迭代回译自动生成平行数据的技术。这些模型不仅显著优于文献中的方法,而且更为简单,超参数也更少。在广泛使用的WMT'14英法和WMT'16德英基准测试中,我们的模型分别在未使用任何平行句对的情况下获得了28.1和25.2的BLEU分数,比现有最佳方法高出超过11个BLEU点。对于资源较少的语言如英乌尔都语和英罗曼尼亚语,我们的方法甚至优于利用少量可用双语文本的半监督和监督方法。我们的NMT(神经机器翻译)和PBSMT(基于短语的统计机器翻译)代码已公开发布。
代码仓库
1-punchMan/CLTS
pytorch
GitHub 中提及
facebookresearch/UnsupervisedMT
官方
pytorch
GitHub 中提及
fshdnc/enfi-XLM
pytorch
GitHub 中提及
luofuli/DualLanST
tf
GitHub 中提及
facebookresearch/XLM
pytorch
GitHub 中提及
huggingface/transformers
pytorch
luofuli/DualRL
tf
GitHub 中提及
feyzaakyurek/XLM-LwLL
pytorch
GitHub 中提及
Helsinki-NLP/shared-info
GitHub 中提及
facebookresearch/UnsupervisedQA
GitHub 中提及
kheeong/XLM_OWN
pytorch
GitHub 中提及
Kelechukwu1/PidginUNMT
pytorch
GitHub 中提及
deterministic-algorithms-lab/Large-XLM
pytorch
GitHub 中提及
keleog/PidginUNMT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt2014-english-french | Unsupervised PBSMT | BLEU score: 28.11 Hardware Burden: Operations per network pass: |
| machine-translation-on-wmt2014-english-french | PBSMT + NMT | BLEU score: 27.6 |
| machine-translation-on-wmt2014-english-french | Unsupervised NMT + Transformer | BLEU score: 25.14 |
| machine-translation-on-wmt2014-english-german | Unsupervised NMT + Transformer | BLEU score: 17.16 Hardware Burden: Operations per network pass: |
| machine-translation-on-wmt2014-english-german | PBSMT + NMT | BLEU score: 20.23 Hardware Burden: Operations per network pass: |
| machine-translation-on-wmt2014-english-german | Unsupervised PBSMT | BLEU score: 17.94 Hardware Burden: Operations per network pass: |
| machine-translation-on-wmt2016-english | Unsupervised PBSMT | BLEU score: 13.37 |
| machine-translation-on-wmt2016-english | PBSMT + NMT | BLEU score: 13.76 |
| machine-translation-on-wmt2016-english | Unsupervised NMT + Transformer | BLEU score: 7.98 |
| machine-translation-on-wmt2016-english-1 | PBSMT + NMT | BLEU score: 25.13 |
| machine-translation-on-wmt2016-english-1 | Unsupervised PBSMT | BLEU score: 21.33 |
| machine-translation-on-wmt2016-english-1 | Unsupervised NMT + Transformer | BLEU score: 21.18 |
| unsupervised-machine-translation-on-wmt2014-1 | PBSMT + NMT | BLEU: 27.7 |
| unsupervised-machine-translation-on-wmt2014-2 | PBSMT + NMT | BLEU: 27.6 |
| unsupervised-machine-translation-on-wmt2016 | PBSMT + NMT | BLEU: 20.2 |
| unsupervised-machine-translation-on-wmt2016-1 | PBSMT | BLEU: 25.2 |