3 个月前

Q-BERT:基于海森矩阵的BERT超低精度量化

Q-BERT:基于海森矩阵的BERT超低精度量化

摘要

基于Transformer的架构已成为自然语言处理(Natural Language Processing, NLP)各类任务中的事实标准模型。特别是基于BERT的模型在GLUE基准任务、CoNLL-03以及SQuAD等任务上取得了显著的性能提升。然而,BERT类模型存在内存占用高和推理延迟大的问题,导致其在资源受限环境中的部署面临严峻挑战。在本研究中,我们基于二阶Hessian信息对微调后的BERT模型进行了深入分析,并利用分析结果提出了一种全新的超低精度量化方法,用于压缩BERT模型。具体而言,我们提出了一种新型的分组量化(group-wise quantization)方案,并结合基于Hessian的混合精度(mix-precision)策略,进一步实现模型压缩。我们在BERT下游任务——SST-2、MNLI、CoNLL-03和SQuAD上对所提方法进行了全面测试。实验结果表明,即使在低至2比特的超低精度量化条件下,模型性能仍可保持与基线模型相当,最大性能下降不超过2.3%;同时,模型参数量可实现最高达13倍的压缩,嵌入表(embedding table)及激活值(activations)的存储空间也分别实现了最高4倍的压缩。在所有任务中,我们在SQuAD任务上观察到最高的性能损失。通过深入分析Hessian信息并结合可视化手段,我们发现这一现象与当前BERT的微调策略在SQuAD任务上未能充分收敛密切相关。该发现揭示了现有训练范式在特定任务上的局限性,也为未来模型优化提供了重要启示。

基准测试

基准方法指标
linguistic-acceptability-on-colaQ-BERT (Shen et al., 2020)
Accuracy: 65.1
natural-language-inference-on-multinliQ-BERT (Shen et al., 2020)
Matched: 87.8
natural-language-inference-on-qnliQ-BERT (Shen et al., 2020)
Accuracy: 93.0
natural-language-inference-on-rteQ-BERT (Shen et al., 2020)
Accuracy: 84.7
semantic-textual-similarity-on-mrpcQ-BERT (Shen et al., 2020)
Accuracy: 88.2
semantic-textual-similarity-on-sts-benchmarkQ-BERT (Shen et al., 2020)
Pearson Correlation: 0.911
sentiment-analysis-on-sst-2-binaryQ-BERT (Shen et al., 2020)
Accuracy: 94.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Q-BERT:基于海森矩阵的BERT超低精度量化 | 论文 | HyperAI超神经