
摘要
上下文词表示通常在非结构化、无标注的文本上进行训练,缺乏与现实世界实体的显式关联,且往往难以记住有关这些实体的事实信息。为此,我们提出一种通用方法,将多个知识库(Knowledge Base, KB)嵌入大规模语言模型中,从而以结构化、人工标注的知识增强模型的表示能力。针对每个知识库,我们首先利用集成的实体链接器检索相关的实体嵌入,随后通过一种词到实体注意力机制对上下文词表示进行更新。与以往方法不同,本方法在多任务学习框架下,端到端地联合训练实体链接器与自监督语言建模目标,结合少量实体链接标注数据与大量原始文本数据。在将WordNet及维基百科的子集整合至BERT模型后,所提出的知识增强型BERT(KnowBert)在困惑度、探针任务中对事实的召回能力,以及关系抽取、实体类型识别和词义消歧等下游任务上的表现均得到显著提升。KnowBert的运行时间与原始BERT相当,且具备良好的可扩展性,适用于大规模知识库。
代码仓库
allenai/kb
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-linking-on-aida-conll | Peters et al. (2019) | Micro-F1 strong: 73.7 |
| relation-classification-on-tacred-1 | KnowBERT | F1: 71.5 |
| relation-extraction-on-semeval-2010-task-8 | KnowBert-W+W | F1: 89.1 |
| relation-extraction-on-tacred | KnowBert-W+W | F1: 71.5 |