
摘要
预训练语言表示模型(PLMs)无法很好地从文本中捕捉事实知识。相比之下,知识嵌入(KE)方法可以通过富有信息量的实体嵌入有效地表示知识图谱(KGs)中的关系事实,但传统的KE模型无法充分利用丰富的文本信息。在本文中,我们提出了一种统一的知识嵌入和预训练语言表示模型(KEPLER),该模型不仅能够更好地将事实知识整合到PLMs中,还能利用强大的PLMs生成有效的文本增强型KE。在KEPLER中,我们使用PLM对文本实体描述进行编码作为其嵌入,然后联合优化KE和语言建模目标。实验结果表明,KEPLER在各种自然语言处理任务上达到了最先进的性能,并且在知识图谱链接预测方面也表现出色。此外,为了预训练和评估KEPLER,我们构建了Wikidata5M,这是一个包含对齐实体描述的大规模KG数据集,并在此数据集上对最先进的KE方法进行了基准测试。它将成为一个新的KE基准,并促进大规模KG、归纳性KE以及带有文本的KG的研究。源代码可从https://github.com/THU-KEG/KEPLER获取。
代码仓库
THU-KEG/KEPLER
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| inductive-knowledge-graph-completion-on-1 | KEPLER-Wiki-rel | Hits@1: 0.222 Hits@10: 0.73 Hits@3: 0.514 MRR: 0.402 |
| link-prediction-on-wikidata5m | DistMult | Hits@1: 0.208 Hits@10: 0.334 Hits@3: 0.278 MRR: 0.253 |
| link-prediction-on-wikidata5m | SimplE | Hits@1: 0.252 Hits@10: 0.377 Hits@3: 0.317 MRR: 0.296 |
| link-prediction-on-wikidata5m | ComplEx | Hits@1: 0.228 Hits@10: 0.373 Hits@3: 0.310 MRR: 0.281 |
| link-prediction-on-wikidata5m | TransE | Hits@1: 0.17 Hits@10: 0.392 Hits@3: 0.311 MRR: 0.253 |
| link-prediction-on-wikidata5m | RotatE | Hits@1: 0.234 Hits@10: 0.39 Hits@3: 0.322 MRR: 0.29 |
| link-prediction-on-wikidata5m | KEPLER-Wiki-rel | Hits@1: 0.173 Hits@10: 0.277 Hits@3: 0.224 MRR: 0.210 |
| relation-classification-on-tacred-1 | KEPLER | F1: 71.7 |
| relation-extraction-on-tacred | KEPLER | F1: 71.7 |