
摘要
据我们所知,这是首次将BERT应用于文档分类。尽管该任务的一些特点可能让人认为BERT并不是最合适的模型:语法结构对内容类别影响较小,文档长度通常超过典型的BERT输入长度,且文档往往具有多个标签。然而,我们的研究表明,使用BERT构建的简单分类模型能够在四个流行数据集上达到当前最佳水平。为了应对BERT推理过程中高昂的计算成本,我们将BERT-large的知识提炼到小型双向LSTM中,在多个数据集上使用少30倍的参数达到了与BERT-base相当的性能。本文的主要贡献在于提供了改进的基线模型,可以为未来的研究奠定基础。
代码仓库
dki-lab/covid19-classification
pytorch
GitHub 中提及
castorini/hedwig
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-aapd | KD-LSTMreg | F1: 72.9 |
| document-classification-on-reuters-21578 | KD-LSTMreg | F1: 88.9 |
| document-classification-on-yelp-14 | KD-LSTMreg | Accuracy: 69.4 |
| text-classification-on-arxiv-10 | DocBERT | Accuracy: 0.764 |