HyperAIHyperAI

Command Palette

Search for a command to run...

用于神经机器翻译的超深Transformer

Xiaodong Liu Kevin Duh Liyuan Liu Jianfeng Gao

摘要

我们探讨了在神经机器翻译(Neural Machine Translation, NMT)中应用极深的Transformer模型。通过采用一种简单而高效的初始化方法以稳定训练过程,我们证明了构建包含最多60个编码器层和12个解码器层的标准Transformer模型是可行的。这些深度模型相较于基准的6层模型,性能提升最高达2.5 BLEU,且在WMT14英语-法语翻译任务上取得了新的最先进水平,分别达到43.8 BLEU(无回译)和46.4 BLEU(使用回译);在WMT14英语-德语任务上也取得了30.1 BLEU的优异成绩。代码与训练好的模型将公开发布于:https://github.com/namisan/exdeep-nmt


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供