
摘要
近期深度学习的进展促进了神经模型在实际应用中的需求。在实践中,这些应用通常需要在有限资源的情况下部署,同时保持高精度。本文探讨了自然语言处理(NLP)中神经模型的核心部分——词嵌入,并提出了一种新的嵌入蒸馏框架,该框架能够在不牺牲精度的前提下显著降低词嵌入的维度。此外,本文还提出了一种新颖的蒸馏集成方法,利用多个教师模型训练一个高效的学生模型。在我们的方法中,教师模型仅在训练阶段发挥作用,而在解码阶段学生模型可以独立运行,无需依赖教师模型的支持,这使得学生模型比其他典型的集成方法快80倍且更加轻量级。所有模型均在七个文档分类数据集上进行了评估,并在大多数情况下显示出相对于教师模型的显著优势。我们的分析揭示了词嵌入通过蒸馏过程发生的有益变化,并为未来使用神经模型的集成方法指明了方向。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-cr | STM+TSED+PT+2L | Accuracy: 82.73 |
| sentiment-analysis-on-mpqa | STM+TSED+PT+2L | Accuracy: 89.83 |
| sentiment-analysis-on-mr | STM+TSED+PT+2L | Accuracy: 80.09 |
| sentiment-analysis-on-sst-2-binary | STM+TSED+PT+2L | Accuracy: 86.95 |
| sentiment-analysis-on-sst-5-fine-grained | STM+TSED+PT+2L | Accuracy: 49.14 |
| subjectivity-analysis-on-subj | STM+TSED+PT+2L | Accuracy: 92.34 |
| text-classification-on-trec-6 | STM+TSED+PT+2L | Error: 7.04 |