6 个月前

摘要

我们探讨了在神经机器翻译（Neural Machine Translation, NMT）中应用极深的Transformer模型。通过采用一种简单而高效的初始化方法以稳定训练过程，我们证明了构建包含最多60个编码器层和12个解码器层的标准Transformer模型是可行的。这些深度模型相较于基准的6层模型，性能提升最高达2.5 BLEU，且在WMT14英语-法语翻译任务上取得了新的最先进水平，分别达到43.8 BLEU（无回译）和46.4 BLEU（使用回译）；在WMT14英语-德语任务上也取得了30.1 BLEU的优异成绩。代码与训练好的模型将公开发布于：https://github.com/namisan/exdeep-nmt。

源 PDF