4 个月前

无监督神经机器翻译与SMT作为后验正则化

无监督神经机器翻译与SMT作为后验正则化

摘要

在没有真实双语语料库的情况下,无监督神经机器翻译(NMT)通常需要通过回译方法生成伪平行数据来进行模型训练。然而,由于监督较弱,伪数据中不可避免地会包含噪声和错误,这些噪声和错误会在后续的训练过程中逐渐积累并被强化,从而导致翻译性能不佳。为了解决这一问题,我们引入了对噪声数据具有鲁棒性的基于短语的统计机器翻译(SMT)模型,作为后验正则化来指导无监督NMT模型在迭代回译过程中的训练。我们的方法从使用预训练语言模型和从跨语言嵌入推断出的词级翻译表构建的SMT模型开始。然后,在统一的EM框架下,SMT和NMT模型联合优化,并逐步相互增强。这样,(1) 由迭代回译过程中错误引起的负面影响可以通过SMT从其短语表中过滤噪声而及时缓解;同时,(2) NMT可以弥补SMT固有的流畅性不足。在英法(en-fr)和英德(en-de)翻译任务上的实验表明,我们的方法优于强大的基线方法,并实现了新的无监督机器翻译性能最先进水平。

代码仓库

Imagist-Shuo/UNMT-SPR
官方
tf
GitHub 中提及

基准测试

基准方法指标
unsupervised-machine-translation-on-wmt2014SMT as posterior regularization
BLEU: 17.0
unsupervised-machine-translation-on-wmt2014-1SMT as posterior regularization
BLEU: 28.9
unsupervised-machine-translation-on-wmt2014-2SMT as posterior regularization
BLEU: 29.5
unsupervised-machine-translation-on-wmt2014-3SMT as posterior regularization
BLEU: 20.4
unsupervised-machine-translation-on-wmt2016SMT as posterior regularization
BLEU: 21.7
unsupervised-machine-translation-on-wmt2016-1SMT as posterior regularization
BLEU: 26.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督神经机器翻译与SMT作为后验正则化 | 论文 | HyperAI超神经