7 个月前

自然语言处理

Yoon Kim Alexander M. Rush

摘要

神经机器翻译（NMT）提供了一种新的翻译方法，其潜在复杂度可能低于统计方法。然而，为了达到具有竞争力的性能，NMT 模型需要非常庞大。在本文中，我们探讨了将知识蒸馏方法（Bucila 等，2006；Hinton 等，2015）应用于 NMT 问题的可能性，这些方法已在其他领域成功用于减少神经模型的规模。我们证明了标准的知识蒸馏方法在词级预测上对 NMT 是有效的，并且还引入了两种新的序列级知识蒸馏版本，进一步提高了性能。令人惊讶的是，这些新方法似乎消除了对束搜索的需求（即使在原始教师模型上应用也是如此）。我们的最佳学生模型比最先进的教师模型运行速度快 10 倍，且性能损失很小。与未使用知识蒸馏训练的基线模型相比，该学生模型的表现也显著更好：使用贪婪解码时提高了 4.2 BLEU 分数，使用束搜索时提高了 1.7 BLEU 分数。在知识蒸馏的基础上应用权重剪枝技术，结果得到的学生模型参数量比原始教师模型减少了 13 倍，BLEU 分数仅下降了 0.4。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

Yoon Kim Alexander M. Rush

摘要

神经机器翻译（NMT）提供了一种新的翻译方法，其潜在复杂度可能低于统计方法。然而，为了达到具有竞争力的性能，NMT 模型需要非常庞大。在本文中，我们探讨了将知识蒸馏方法（Bucila 等，2006；Hinton 等，2015）应用于 NMT 问题的可能性，这些方法已在其他领域成功用于减少神经模型的规模。我们证明了标准的知识蒸馏方法在词级预测上对 NMT 是有效的，并且还引入了两种新的序列级知识蒸馏版本，进一步提高了性能。令人惊讶的是，这些新方法似乎消除了对束搜索的需求（即使在原始教师模型上应用也是如此）。我们的最佳学生模型比最先进的教师模型运行速度快 10 倍，且性能损失很小。与未使用知识蒸馏训练的基线模型相比，该学生模型的表现也显著更好：使用贪婪解码时提高了 4.2 BLEU 分数，使用束搜索时提高了 1.7 BLEU 分数。在知识蒸馏的基础上应用权重剪枝技术，结果得到的学生模型参数量比原始教师模型减少了 13 倍，BLEU 分数仅下降了 0.4。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

序列级知识蒸馏 | 论文 | HyperAI超神经