3 个月前

Q8BERT:量化8位BERT

Q8BERT:量化8位BERT

摘要

近年来,基于预训练Transformer架构的语言模型(如BERT和GPT)在众多自然语言处理(NLP)任务中取得了显著进展。然而,这些模型通常包含海量参数。随着GPT-2、Megatron等更大、更精确模型的出现,预训练Transformer模型呈现出持续扩大的趋势。然而,在生产环境中部署此类大型模型是一项复杂任务,需要消耗大量计算资源、内存和电力。本文提出了一种在BERT微调阶段进行量化感知训练(quantization-aware training)的方法,能够在仅造成极小精度损失的前提下,将BERT模型压缩至原来的1/4大小。此外,经过优化以支持8位整数(8-bit Integer)硬件的量化模型,还可显著提升推理速度。

基准测试

基准方法指标
linguistic-acceptability-on-colaQ8BERT (Zafrir et al., 2019)
Accuracy: 65.0
natural-language-inference-on-multinliQ8BERT (Zafrir et al., 2019)
Matched: 85.6
natural-language-inference-on-qnliQ8BERT (Zafrir et al., 2019)
Accuracy: 93.0
natural-language-inference-on-rteQ8BERT (Zafrir et al., 2019)
Accuracy: 84.8
semantic-textual-similarity-on-mrpcQ8BERT (Zafrir et al., 2019)
Accuracy: 89.7
semantic-textual-similarity-on-sts-benchmarkQ8BERT (Zafrir et al., 2019)
Pearson Correlation: 0.911
sentiment-analysis-on-sst-2-binaryQ8BERT (Zafrir et al., 2019)
Accuracy: 94.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Q8BERT:量化8位BERT | 论文 | HyperAI超神经