
摘要
近年来,基于预训练Transformer架构的语言模型(如BERT和GPT)在众多自然语言处理(NLP)任务中取得了显著进展。然而,这些模型通常包含海量参数。随着GPT-2、Megatron等更大、更精确模型的出现,预训练Transformer模型呈现出持续扩大的趋势。然而,在生产环境中部署此类大型模型是一项复杂任务,需要消耗大量计算资源、内存和电力。本文提出了一种在BERT微调阶段进行量化感知训练(quantization-aware training)的方法,能够在仅造成极小精度损失的前提下,将BERT模型压缩至原来的1/4大小。此外,经过优化以支持8位整数(8-bit Integer)硬件的量化模型,还可显著提升推理速度。
代码仓库
iabd/QuantizedNMT
pytorch
GitHub 中提及
intellabs/model-compression-research-package
官方
pytorch
GitHub 中提及
huggingface/block_movement_pruning
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| linguistic-acceptability-on-cola | Q8BERT (Zafrir et al., 2019) | Accuracy: 65.0 |
| natural-language-inference-on-multinli | Q8BERT (Zafrir et al., 2019) | Matched: 85.6 |
| natural-language-inference-on-qnli | Q8BERT (Zafrir et al., 2019) | Accuracy: 93.0 |
| natural-language-inference-on-rte | Q8BERT (Zafrir et al., 2019) | Accuracy: 84.8 |
| semantic-textual-similarity-on-mrpc | Q8BERT (Zafrir et al., 2019) | Accuracy: 89.7 |
| semantic-textual-similarity-on-sts-benchmark | Q8BERT (Zafrir et al., 2019) | Pearson Correlation: 0.911 |
| sentiment-analysis-on-sst-2-binary | Q8BERT (Zafrir et al., 2019) | Accuracy: 94.7 |