
摘要
表示学习是自然语言处理系统中的关键组成部分。近年来,像BERT这样的Transformer语言模型能够学习到强大的文本表示,但这些模型主要针对词元级和句子级的训练目标,未能充分利用文档之间的关联性信息,从而限制了其在文档级表示上的能力。在科学文献的分类、推荐等应用中,高质量的嵌入表示能够显著提升下游任务的性能。为此,我们提出SPECTER——一种基于预训练Transformer语言模型的新方法,通过利用文档级关联性的强大信号——引文图(citation graph)来生成科学文献的文档级嵌入。与现有的预训练语言模型不同,SPECTER无需针对特定任务进行微调,即可直接应用于下游任务。此外,为推动文档级模型的进一步研究,我们引入了SciDocs,一个包含七个文档级任务的新评估基准,涵盖引文预测、文档分类与推荐等任务。实验结果表明,SPECTER在该基准上显著优于多种竞争性基线方法。
代码仓库
sntcristian/and-kge
pytorch
GitHub 中提及
allenai/specter
官方
pytorch
GitHub 中提及
hle027/IR-Competition
GitHub 中提及
allenai/scidocs
官方
pytorch
GitHub 中提及
allenai/aspire
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-scidocs-mag | SPECTER | F1 (micro): 82.0 |
| document-classification-on-scidocs-mesh | SPECTER | F1 (micro): 86.4 |
| representation-learning-on-scidocs | SPECTER | Avg.: 80.0 |
| representation-learning-on-scidocs | SciBERT | Avg.: 59.6 |
| representation-learning-on-scidocs | Citeomatic | Avg.: 76.0 |