
摘要
神经机器翻译(NMT)模型通常使用固定词汇表进行操作,但翻译是一个开放词汇问题。先前的研究通过回退到词典来解决未登录词的翻译问题。在本文中,我们介绍了一种更简单且更有效的方法,通过将罕见词和未知词编码为子词单元序列,使NMT模型具备开放词汇翻译的能力。这一方法基于这样的直觉:各种词类可以通过比单词更小的单元进行翻译,例如名字(通过字符复制或音译)、复合词(通过组合翻译)以及同源词和借词(通过音韵和形态转换)。我们讨论了不同词语切分技术的适用性,包括简单的字符n-gram模型和基于字节对编码压缩算法的切分方法,并通过实验证明,对于WMT 15英德和英俄翻译任务,子词模型分别比回退词典基线提高了1.1和1.3个BLEU分数。
代码仓库
simonjisu/NMT
pytorch
GitHub 中提及
nyu-dl/dl4mt-cdec
GitHub 中提及
EdinburghNLP/code-docstring-corpus
GitHub 中提及
SeonbeomKim/Python-Bype_Pair_Encoding
GitHub 中提及
johnr0/TaleBrush-backend
pytorch
GitHub 中提及
facebookresearch/fairseq
pytorch
GitHub 中提及
SeonbeomKim/Python-Byte_Pair_Encoding
GitHub 中提及
siyuofzhou/CNNSeqToSeq
pytorch
GitHub 中提及
karpathy/minbpe
GitHub 中提及
nyu-dl/dl4mt-simul-trans
GitHub 中提及
nyu-dl/dl4mt-c2c
GitHub 中提及
Automattic/wp-translate
tf
GitHub 中提及
Avmb/code-docstring-corpus
GitHub 中提及
salesforce/GeDi
pytorch
GitHub 中提及
glample/fastBPE
GitHub 中提及
kh-mo/QA_wikisql
GitHub 中提及
Xinsen-Zhang/transformer
paddle
GitHub 中提及
ThAIKeras/bert
tf
GitHub 中提及
lkfo415579/MT-Readling-List
tf
GitHub 中提及
thinkwee/DPP_CNN_Summarization
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| machine-translation-on-wmt2015-english | C2-50k Segmentation | BLEU score: 20.9 |
| machine-translation-on-wmt2015-english-german | BPE word segmentation | BLEU score: 22.8 |