6 个月前

自然语言处理

自然语言处理

Angela Fan Edouard Grave Armand Joulin

摘要

过参数化的Transformer网络在自然语言处理的多项任务中取得了当前最优的性能，包括机器翻译、语言建模和问答系统等。这类模型通常包含数亿个参数，需要大量的计算资源，且容易出现过拟合问题。在本研究中，我们探索了一种结构化丢弃方法——LayerDrop，该方法在训练过程中具有正则化效果，并可在推理阶段实现高效的网络剪枝。特别地，我们证明了可以从一个大型网络中直接选取任意深度的子网络，而无需进行微调，且对模型性能的影响极小。通过在机器翻译、语言建模、文本摘要、问答系统以及语言理解等基准任务上的实验，我们验证了该方法的有效性，显著提升了现有技术水平。此外，我们还发现，与从头训练或使用知识蒸馏的方法相比，本方法能够生成质量更高的小型BERT类模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Angela Fan Edouard Grave Armand Joulin

摘要

过参数化的Transformer网络在自然语言处理的多项任务中取得了当前最优的性能，包括机器翻译、语言建模和问答系统等。这类模型通常包含数亿个参数，需要大量的计算资源，且容易出现过拟合问题。在本研究中，我们探索了一种结构化丢弃方法——LayerDrop，该方法在训练过程中具有正则化效果，并可在推理阶段实现高效的网络剪枝。特别地，我们证明了可以从一个大型网络中直接选取任意深度的子网络，而无需进行微调，且对模型性能的影响极小。通过在机器翻译、语言建模、文本摘要、问答系统以及语言理解等基准任务上的实验，我们验证了该方法的有效性，显著提升了现有技术水平。此外，我们还发现，与从头训练或使用知识蒸馏的方法相比，本方法能够生成质量更高的小型BERT类模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供