
摘要
近年来,机器翻译取得了快速进展。如今,数以百万计的人们正在通过在线翻译系统和移动应用程序使用机器翻译,以便跨越语言障碍进行交流。自然而然地,人们会提出这样的问题:这些系统是否能够接近或达到人类翻译的水平。在本文中,我们首先探讨了如何定义和准确测量翻译中的人类水平(human parity)。随后,我们描述了微软的机器翻译系统,并对其在广泛使用的WMT 2017新闻翻译任务中的翻译质量进行了评估,该任务是从中文到英文的翻译。研究发现,我们的最新神经机器翻译系统达到了新的最先进水平(state-of-the-art),并且其翻译质量与专业人类翻译相当。此外,我们还发现该系统的翻译质量显著超过了非专业众包(crowd-sourced)翻译的质量。
代码仓库
sanxing-chen/NMT2017-ZH-EN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt-2017-english-1 | Hassan et al. (2018) | BLEU score: 24.2 |