HyperAIHyperAI

Command Palette

Search for a command to run...

一次剪枝,全量适配:稀疏预训练语言模型

Ofir Zafrir Ariel Larey Guy Boudoukh Haihao Shen Moshe Wasserblat

摘要

基于Transformer的语言模型在自然语言处理的诸多应用中得到了广泛使用。然而,这类模型在计算效率上存在不足,且部署难度较大。近年来,为提升大型Transformer模型在目标硬件上的实现效率,已有大量压缩算法被提出。本文提出一种新方法,通过融合权重剪枝(weight pruning)与模型蒸馏(model distillation)技术,训练稀疏的预训练Transformer语言模型。这些稀疏的预训练模型在保持稀疏结构的同时,可广泛应用于各类迁移学习任务。我们以三种经典架构为例,分别构建了稀疏的预训练BERT-Base、BERT-Large与DistilBERT模型。实验表明,所训练的压缩稀疏模型在迁移至五个不同的下游自然语言处理任务时,仅产生极小的精度损失。此外,我们进一步采用感知量化训练(quantization-aware training)技术,将稀疏模型的权重压缩至8位精度。例如,在SQuADv1.1数据集上对稀疏预训练BERT-Large进行微调并量化至8位后,编码器部分实现了高达40倍的压缩比,且精度损失低于1%。据我们所知,该结果在BERT-Base、BERT-Large与DistilBERT三类模型中均达到了当前最优的压缩率与精度平衡。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供