8 个月前

摘要

语言模型（LM）预训练可以从文本语料库中学习各种知识，从而帮助下游任务。然而，现有的方法如BERT仅对单个文档进行建模，无法捕捉跨文档的依赖关系或知识。在本研究中，我们提出了一种新的语言模型预训练方法——LinkBERT，该方法利用了文档之间的链接（例如超链接）。给定一个文本语料库，我们将其视为一个文档图，并通过将链接的文档置于同一上下文中来创建语言模型输入。随后，我们使用两个联合自监督目标对语言模型进行预训练：掩码语言建模和我们新提出的文档关系预测。实验结果表明，LinkBERT在两个领域的多种下游任务上均优于BERT：通用领域（在包含超链接的维基百科上预训练）和生物医学领域（在包含引用链接的PubMed上预训练）。LinkBERT特别适用于多跳推理和少样本问答任务，在HotpotQA和TriviaQA数据集上取得了5%的绝对性能提升；我们的生物医学LinkBERT在多个BioNLP任务上也达到了新的最佳水平，在BioASQ和USMLE数据集上的性能提升了7%。我们发布了预训练模型LinkBERT和BioLinkBERT，以及相关代码和数据，详情见https://github.com/michiyasunaga/LinkBERT。

源 PDF