4 个月前

无监督神经机器翻译的无监督统计机器翻译初始化

无监督神经机器翻译的无监督统计机器翻译初始化

摘要

近期的研究在完全无监督的方式下训练神经机器翻译(NMT)系统方面取得了显著成果,这些研究采用了专门设计的新架构,仅依赖单语语料库。本文中,我们提出将无监督神经机器翻译(UNMT)定义为利用合成双语文本数据进行监督训练的NMT。我们的方法可以直接应用现有的为有监督NMT设计的最先进架构,只需在训练过程中用合成双语文本数据替代人工制作的双语文本数据即可。我们建议使用无监督统计机器翻译(USMT)生成的合成双语文本数据来初始化UNMT的训练。随后,通过回译技术逐步改进UNMT系统。初步实验表明,我们的方法在WMT16德英新闻翻译任务上实现了新的无监督机器翻译最先进水平,无论是在德译英还是英译德方向上均表现优异。

基准测试

基准方法指标
unsupervised-machine-translation-on-wmt2016Synthetic bilingual data init
BLEU: 20.0
unsupervised-machine-translation-on-wmt2016-1Synthetic bilingual data init
BLEU: 26.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督神经机器翻译的无监督统计机器翻译初始化 | 论文 | HyperAI超神经