HyperAIHyperAI

Command Palette

Search for a command to run...

Q8BERT:量化8位BERT

Ofir Zafrir Guy Boudoukh Peter Izsak Moshe Wasserblat

摘要

近年来,基于预训练Transformer架构的语言模型(如BERT和GPT)在众多自然语言处理(NLP)任务中取得了显著进展。然而,这些模型通常包含海量参数。随着GPT-2、Megatron等更大、更精确模型的出现,预训练Transformer模型呈现出持续扩大的趋势。然而,在生产环境中部署此类大型模型是一项复杂任务,需要消耗大量计算资源、内存和电力。本文提出了一种在BERT微调阶段进行量化感知训练(quantization-aware training)的方法,能够在仅造成极小精度损失的前提下,将BERT模型压缩至原来的1/4大小。此外,经过优化以支持8位整数(8-bit Integer)硬件的量化模型,还可显著提升推理速度。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供