4 个月前

DocBERT:用于文档分类的BERT

DocBERT:用于文档分类的BERT

摘要

据我们所知,这是首次将BERT应用于文档分类。尽管该任务的一些特点可能让人认为BERT并不是最合适的模型:语法结构对内容类别影响较小,文档长度通常超过典型的BERT输入长度,且文档往往具有多个标签。然而,我们的研究表明,使用BERT构建的简单分类模型能够在四个流行数据集上达到当前最佳水平。为了应对BERT推理过程中高昂的计算成本,我们将BERT-large的知识提炼到小型双向LSTM中,在多个数据集上使用少30倍的参数达到了与BERT-base相当的性能。本文的主要贡献在于提供了改进的基线模型,可以为未来的研究奠定基础。

代码仓库

dki-lab/covid19-classification
pytorch
GitHub 中提及
castorini/hedwig
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
document-classification-on-aapdKD-LSTMreg
F1: 72.9
document-classification-on-reuters-21578KD-LSTMreg
F1: 88.9
document-classification-on-yelp-14KD-LSTMreg
Accuracy: 69.4
text-classification-on-arxiv-10DocBERT
Accuracy: 0.764

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DocBERT:用于文档分类的BERT | 论文 | HyperAI超神经