4 个月前

序列级知识蒸馏

序列级知识蒸馏

摘要

神经机器翻译(NMT)提供了一种新的翻译方法,其潜在复杂度可能低于统计方法。然而,为了达到具有竞争力的性能,NMT 模型需要非常庞大。在本文中,我们探讨了将知识蒸馏方法(Bucila 等,2006;Hinton 等,2015)应用于 NMT 问题的可能性,这些方法已在其他领域成功用于减少神经模型的规模。我们证明了标准的知识蒸馏方法在词级预测上对 NMT 是有效的,并且还引入了两种新的序列级知识蒸馏版本,进一步提高了性能。令人惊讶的是,这些新方法似乎消除了对束搜索的需求(即使在原始教师模型上应用也是如此)。我们的最佳学生模型比最先进的教师模型运行速度快 10 倍,且性能损失很小。与未使用知识蒸馏训练的基线模型相比,该学生模型的表现也显著更好:使用贪婪解码时提高了 4.2 BLEU 分数,使用束搜索时提高了 1.7 BLEU 分数。在知识蒸馏的基础上应用权重剪枝技术,结果得到的学生模型参数量比原始教师模型减少了 13 倍,BLEU 分数仅下降了 0.4。

代码仓库

harvardnlp/nmt-android
官方
pytorch
GitHub 中提及
harvardnlp/seq2seq-attn
官方
pytorch
GitHub 中提及
ictnlp/Seq-NAT
pytorch
GitHub 中提及
facebookresearch/stopes
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2015-thai-englishSeq-KD + Seq-Inter + Word-KD
BLEU score: 14.2
machine-translation-on-wmt2014-english-germanSeq-KD + Seq-Inter + Word-KD
BLEU score: 18.5
Hardware Burden:
Operations per network pass:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
序列级知识蒸馏 | 论文 | HyperAI超神经