3 个月前

TinyBERT:面向自然语言理解的BERT知识蒸馏

TinyBERT:面向自然语言理解的BERT知识蒸馏

摘要

基于预训练的语言模型(如BERT)显著提升了众多自然语言处理任务的性能。然而,预训练语言模型通常计算开销较大,难以在资源受限的设备上高效运行。为在保持模型准确率的同时加速推理并减小模型规模,本文提出一种专为基于Transformer的模型知识蒸馏(Knowledge Distillation, KD)设计的新型Transformer蒸馏方法。通过该方法,大型教师模型BERT所蕴含的丰富知识可被高效迁移至小型学生模型Tiny-BERT中。随后,本文进一步提出一种面向Tiny-BERT的新颖两阶段学习框架,在预训练阶段与特定任务学习阶段均实施Transformer蒸馏。该框架确保Tiny-BERT能够同时捕捉BERT中的通用领域知识与特定任务知识。实验结果表明,仅含4层的Tiny-BERT在GLUE基准测试中性能达到其教师模型BERTBASE的96.8%以上,模型体积缩小7.5倍,推理速度提升9.4倍。相较于当前最先进的4层BERT蒸馏方法,Tiny-BERT在参数量仅为其约28%、推理时间约为其31%的情况下,仍表现出显著更优的性能。此外,含6层的Tiny-BERT在性能上已与教师模型BERTBASE相当。

基准测试

基准方法指标
linguistic-acceptability-on-colaTinyBERT-4 14.5M
Accuracy: 43.3%
linguistic-acceptability-on-cola-devTinyBERT-6 67M
Accuracy: 54
natural-language-inference-on-multinliTinyBERT-6 67M
Matched: 84.6
Mismatched: 83.2
natural-language-inference-on-multinliTinyBERT-4 14.5M
Matched: 82.5
Mismatched: 81.8
natural-language-inference-on-multinli-devTinyBERT-6 67M
Matched: 84.5
Mismatched: 84.5
natural-language-inference-on-qnliTinyBERT-4 14.5M
Accuracy: 87.7%
natural-language-inference-on-qnliTinyBERT-6 67M
Accuracy: 90.4%
natural-language-inference-on-rteTinyBERT-4 14.5M
Accuracy: 62.9%
natural-language-inference-on-rteTinyBERT-6 67M
Accuracy: 66%
paraphrase-identification-on-quora-questionTinyBERT
F1: 71.3
question-answering-on-squad11-devTinyBERT-6 67M
EM: 79.7
F1: 87.5
question-answering-on-squad20-devTinyBERT-6 67M
EM: 69.9
F1: 73.4
semantic-textual-similarity-on-mrpcTinyBERT-6 67M
Accuracy: 87.3%
semantic-textual-similarity-on-mrpcTinyBERT-4 14.5M
Accuracy: 86.4%
semantic-textual-similarity-on-mrpc-devTinyBERT-6 67M
Accuracy: 86.3
semantic-textual-similarity-on-sts-benchmarkTinyBERT-4 14.5M
Pearson Correlation: 0.799
sentiment-analysis-on-sst-2-binaryTinyBERT-6 67M
Accuracy: 93.1
sentiment-analysis-on-sst-2-binaryTinyBERT-4 14.5M
Accuracy: 92.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TinyBERT:面向自然语言理解的BERT知识蒸馏 | 论文 | HyperAI超神经