4 个月前

基于注意力机制的神经机器翻译的有效方法

基于注意力机制的神经机器翻译的有效方法

摘要

近期,注意力机制被用于改进神经机器翻译(NMT),通过在翻译过程中有选择性地关注源句子的某些部分来提升性能。然而,关于适用于基于注意力机制的NMT的有效架构的研究相对较少。本文探讨了两类简单且有效的注意力机制:一种是全局方法,始终关注所有源词;另一种是局部方法,每次仅关注源词的一个子集。我们在这两种方法上展示了其在WMT英德双向翻译任务中的有效性。利用局部注意力机制,我们在已集成诸如dropout等已知技术的非注意力系统基础上实现了显著的5.0个BLEU分的提升。通过结合不同注意力架构的模型集合,我们在WMT'15英德翻译任务中取得了25.9个BLEU分的新最佳结果,比现有的最佳系统(该系统基于NMT和n-gram重排序器)提高了1.0个BLEU分。

代码仓库

bplank/teaching-dl4nlp
GitHub 中提及
amitz25/PCCoder
pytorch
GitHub 中提及
mike-a-yen/date-translation
pytorch
GitHub 中提及
jmyrberg/finnlem
tf
GitHub 中提及
sooftware/attentions
pytorch
GitHub 中提及
neqkir/attention-mechanism
tf
GitHub 中提及
hnt4499/seq2seq
pytorch
GitHub 中提及
huulinhcvp/chatBot
pytorch
GitHub 中提及
saisandeep97/Chat-botV2
pytorch
GitHub 中提及
Shubham-SK/kronos
pytorch
GitHub 中提及
eaplatanios/symphony-mt
tf
GitHub 中提及
pbcquoc/transformer
GitHub 中提及
biyoml/End-to-End-Mandarin-ASR
pytorch
GitHub 中提及
chao-ji/tf-seq2seq
tf
GitHub 中提及
vGkatsis/Chat_Bot_DL
pytorch
GitHub 中提及
sen-pai/audio-word2vec-pytorch
pytorch
GitHub 中提及
T9-LIN/MSc-Project
pytorch
GitHub 中提及
dalek7/attention
tf
GitHub 中提及
shlokmehrotra/Convocare
pytorch
GitHub 中提及
jackjhliu/End-to-End-Mandarin-ASR
pytorch
GitHub 中提及
say2sarwar/DeepAcid
GitHub 中提及
khanhptnk/bandit-nmt
pytorch
GitHub 中提及
A-Jacobson/minimal-nmt
pytorch
GitHub 中提及
sblayush/summarization
tf
GitHub 中提及
KevinYoung98/Seq2Seq-PyTorch
pytorch
GitHub 中提及
pcyin/pytorch_basic_nmt
pytorch
GitHub 中提及
ldulcic/chatbot
pytorch
GitHub 中提及
Shubham-SK/TreeOverAte
pytorch
GitHub 中提及
CongBao/ChatBot
GitHub 中提及
riversdie/chatbot
pytorch
GitHub 中提及
b-etienne/Seq2seq-PyTorch
pytorch
GitHub 中提及

基准测试

基准方法指标
image-guided-story-ending-generation-on-lsmdcSeq2Seq
BLEU-1: 14.21
BLEU-2: 4.56
BLEU-3: 1.70
BLEU-4: 0.70
CIDEr: 8.69
METEOR: 11.01
ROUGE-L: 19.69
image-guided-story-ending-generation-on-vistSeq2Seq
BLEU-1: 13.96
BLEU-2: 5.57
BLEU-3: 2.94
BLEU-4: 1.69
CIDEr: 12.04
METEOR: 4.54
ROUGE-L: 16.84
machine-translation-on-20news12
Accuracy: 1.0
machine-translation-on-wmt2014-english-germanRNN Enc-Dec Att
BLEU score: 20.9
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanRNN Enc-Dec
BLEU score: 11.3
Hardware Burden:
Operations per network pass:
machine-translation-on-wmt2014-english-germanReverse RNN Enc-Dec
BLEU score: 14.0
Hardware Burden:
Operations per network pass:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于注意力机制的神经机器翻译的有效方法 | 论文 | HyperAI超神经