4 个月前

无监督统计机器翻译

无监督统计机器翻译

摘要

虽然现代机器翻译依赖于大规模平行语料库,但近期的一些研究已经成功地仅从单语语料库训练神经机器翻译(NMT)系统(Artetxe等人,2018c;Lample等人,2018)。尽管这种方法在低资源环境下具有潜在优势,现有的系统仍远落后于有监督的系统,限制了其实际应用价值。本文提出了一种基于短语统计机器翻译(SMT)的替代方法,显著缩小了与有监督系统的差距。我们的方法利用了SMT的模块化架构:首先通过跨语言嵌入映射从单语语料库中生成短语表,然后将其与n元语言模型结合,并通过无监督的MERT变体微调超参数。此外,迭代回译进一步提高了结果,在WMT 2014英德和英法翻译任务中分别达到了14.08和26.22的BLEU分数,比之前的无监督系统提高了7-10个BLEU点,并将与有监督SMT(使用Europarl数据集训练的Moses系统)之间的差距缩小到2-5个BLEU点。我们的实现代码可在https://github.com/artetxem/monoses 获取。

代码仓库

artetxem/phrase2vec
GitHub 中提及
artetxem/monoses
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-wmt2014-english-frenchSMT + iterative backtranslation (unsupervised)
BLEU score: 26.22
machine-translation-on-wmt2014-english-germanSMT + iterative backtranslation (unsupervised)
BLEU score: 14.08
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-french-englishSMT + iterative backtranslation (unsupervised)
BLEU score: 25.87
machine-translation-on-wmt2014-german-englishSMT + iterative backtranslation (unsupervised)
BLEU score: 17.43
machine-translation-on-wmt2016-english-germanSMT + iterative backtranslation (unsupervised)
BLEU score: 18.23
machine-translation-on-wmt2016-german-englishSMT + iterative backtranslation (unsupervised)
BLEU score: 23.05
unsupervised-machine-translation-on-wmt2014-1SMT
BLEU: 25.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督统计机器翻译 | 论文 | HyperAI超神经