4 个月前

无监督机器翻译的有效方法

无监督机器翻译的有效方法

摘要

虽然机器翻译传统上依赖于大量的平行语料库,但最近的研究方向已经成功地仅使用单语语料库训练了神经机器翻译(NMT)和统计机器翻译(SMT)系统。在本文中,我们通过利用子词信息、开发一种理论基础扎实的无监督调优方法以及引入联合精炼过程,识别并解决了现有无监督SMT方法中的若干不足之处。此外,我们使用改进后的SMT系统初始化了一个双模型NMT,并通过即时回译进一步微调该模型。综上所述,我们在无监督机器翻译方面取得了比以往最先进的方法更大的改进。例如,在2014年WMT英德翻译任务中,我们的系统达到了22.5的BLEU分数,比之前最佳的无监督系统高出5.5分,甚至比2014年的(有监督)共享任务获胜者高出0.5分。

代码仓库

artetxem/monoses
官方
pytorch

基准测试

基准方法指标
unsupervised-machine-translation-on-wmt2014SMT + NMT (tuning and joint refinement)
BLEU: 22.5
unsupervised-machine-translation-on-wmt2014-1SMT + NMT (tuning and joint refinement)
BLEU: 33.5
unsupervised-machine-translation-on-wmt2014-2SMT + NMT (tuning and joint refinement)
BLEU: 36.2
unsupervised-machine-translation-on-wmt2014-3SMT + NMT (tuning and joint refinement)
BLEU: 27.0
unsupervised-machine-translation-on-wmt2016SMT + NMT (tuning and joint refinement)
BLEU: 26.9
unsupervised-machine-translation-on-wmt2016-1SMT + NMT (tuning and joint refinement)
BLEU: 34.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督机器翻译的有效方法 | 论文 | HyperAI超神经