
摘要
当前神经机器翻译的主要方法依赖于双向LSTM(长短期记忆网络)来编码源句子。本文提出了一种基于连续卷积层的更快、更简单的架构。该架构允许同时对整个源句子进行编码,而循环网络则受制于时间依赖性,计算过程较为受限。在WMT'16 英语-罗马尼亚语翻译任务中,我们达到了与现有最先进方法相当的准确率,并且在WMT'15 英语-德语任务上超越了多个最近发布的成果。我们的模型在WMT'14 英语-法语翻译任务中的准确率几乎与一个非常深的LSTM设置相同。与强大的双向LSTM基线相比,我们的卷积编码器在保持相同或更高准确率的情况下,将CPU解码速度提高了两倍以上。
代码仓库
facebookresearch/fairseq
pytorch
GitHub 中提及
siyuofzhou/CNNSeqToSeq
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-iwslt2015-german | Conv-LSTM (deep+pos) | BLEU score: 30.4 |
| machine-translation-on-wmt2014-english-french | Deep Convolutional Encoder; single-layer decoder | BLEU score: 35.7 |
| machine-translation-on-wmt2016-english-1 | Deep Convolutional Encoder; single-layer decoder | BLEU score: 27.8 |
| machine-translation-on-wmt2016-english-1 | BiLSTM | BLEU score: 27.5 |