4 个月前

基于短语和神经网络的无监督机器翻译

基于短语和神经网络的无监督机器翻译

摘要

机器翻译系统在某些语言上已经达到了接近人类水平的性能,但其有效性在很大程度上依赖于大量平行句对的存在,这限制了它们在大多数语言对中的应用。本研究探讨了仅利用每种语言的大规模单语语料库进行翻译学习的方法。我们提出了两种模型变体,一种是神经网络模型,另一种是基于短语的模型。这两种版本都利用了参数的精心初始化、语言模型的去噪效果以及通过迭代回译自动生成平行数据的技术。这些模型不仅显著优于文献中的方法,而且更为简单,超参数也更少。在广泛使用的WMT'14英法和WMT'16德英基准测试中,我们的模型分别在未使用任何平行句对的情况下获得了28.1和25.2的BLEU分数,比现有最佳方法高出超过11个BLEU点。对于资源较少的语言如英乌尔都语和英罗曼尼亚语,我们的方法甚至优于利用少量可用双语文本的半监督和监督方法。我们的NMT(神经机器翻译)和PBSMT(基于短语的统计机器翻译)代码已公开发布。

代码仓库

1-punchMan/CLTS
pytorch
GitHub 中提及
facebookresearch/UnsupervisedMT
官方
pytorch
GitHub 中提及
fshdnc/enfi-XLM
pytorch
GitHub 中提及
luofuli/DualLanST
tf
GitHub 中提及
facebookresearch/XLM
pytorch
GitHub 中提及
luofuli/DualRL
tf
GitHub 中提及
feyzaakyurek/XLM-LwLL
pytorch
GitHub 中提及
Helsinki-NLP/shared-info
GitHub 中提及
kheeong/XLM_OWN
pytorch
GitHub 中提及
Kelechukwu1/PidginUNMT
pytorch
GitHub 中提及
keleog/PidginUNMT
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-wmt2014-english-frenchUnsupervised PBSMT
BLEU score: 28.11
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-frenchPBSMT + NMT
BLEU score: 27.6
machine-translation-on-wmt2014-english-frenchUnsupervised NMT + Transformer
BLEU score: 25.14
machine-translation-on-wmt2014-english-germanUnsupervised NMT + Transformer
BLEU score: 17.16
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanPBSMT + NMT
BLEU score: 20.23
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanUnsupervised PBSMT
BLEU score: 17.94
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2016-englishUnsupervised PBSMT
BLEU score: 13.37
machine-translation-on-wmt2016-englishPBSMT + NMT
BLEU score: 13.76
machine-translation-on-wmt2016-englishUnsupervised NMT + Transformer
BLEU score: 7.98
machine-translation-on-wmt2016-english-1PBSMT + NMT
BLEU score: 25.13
machine-translation-on-wmt2016-english-1Unsupervised PBSMT
BLEU score: 21.33
machine-translation-on-wmt2016-english-1Unsupervised NMT + Transformer
BLEU score: 21.18
unsupervised-machine-translation-on-wmt2014-1PBSMT + NMT
BLEU: 27.7
unsupervised-machine-translation-on-wmt2014-2PBSMT + NMT
BLEU: 27.6
unsupervised-machine-translation-on-wmt2016PBSMT + NMT
BLEU: 20.2
unsupervised-machine-translation-on-wmt2016-1PBSMT
BLEU: 25.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于短语和神经网络的无监督机器翻译 | 论文 | HyperAI超神经