3 个月前

按需减少Transformer深度的结构化丢弃

按需减少Transformer深度的结构化丢弃

摘要

过参数化的Transformer网络在自然语言处理的多项任务中取得了当前最优的性能,包括机器翻译、语言建模和问答系统等。这类模型通常包含数亿个参数,需要大量的计算资源,且容易出现过拟合问题。在本研究中,我们探索了一种结构化丢弃方法——LayerDrop,该方法在训练过程中具有正则化效果,并可在推理阶段实现高效的网络剪枝。特别地,我们证明了可以从一个大型网络中直接选取任意深度的子网络,而无需进行微调,且对模型性能的影响极小。通过在机器翻译、语言建模、文本摘要、问答系统以及语言理解等基准任务上的实验,我们验证了该方法的有效性,显著提升了现有技术水平。此外,我们还发现,与从头训练或使用知识蒸馏的方法相比,本方法能够生成质量更高的小型BERT类模型。

代码仓库

prajjwal1/adaptive_transformer
pytorch
GitHub 中提及
thunlp-mt/promptgating4mctg
pytorch
GitHub 中提及
prajjwal1/fluence
pytorch
GitHub 中提及
c00k1ez/plain-transformers
pytorch
GitHub 中提及

基准测试

基准方法指标
open-domain-question-answering-on-eli5Transformer Multitask + LayerDrop
Rouge-1: 29.4
Rouge-2: 5.5
Rouge-L: 23.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
按需减少Transformer深度的结构化丢弃 | 论文 | HyperAI超神经