3 个月前

利用成对共现信息提升大规模数据集上的知识图谱补全性能

利用成对共现信息提升大规模数据集上的知识图谱补全性能

摘要

双线性模型(如DistMult和ComplEx)在知识图谱(Knowledge Graph, KG)补全任务中表现出色。然而,这类模型通常需要较大的批量大小(batch size),在大规模数据集上训练时,受限于内存容量,这一需求往往成为性能瓶颈。本文提出一种基于数据集中实体-关系对出现频次的联合学习机制,用于提升训练过程中负样本采样的质量。实验结果表明,在三个标准数据集上,当上述两种技术相结合时,模型性能显著提升,尤其在批量大小及生成的负样本数量相对于数据集规模较小时,优势更为明显。此外,我们将该方法应用于包含200万实体的大规模数据集,结果表明,相较于基线模型,本模型在Hits@1指标上取得了2.8%的绝对性能提升。

基准测试

基准方法指标
link-prediction-on-fb15kJoBi ComplEx
Hits@1: 0.681
Hits@10: 0.883
Hits@3: 0.824
MRR: 0.761
link-prediction-on-fb15k-237JoBi ComplEx
Hits@1: 0.199
Hits@10: 0.479
Hits@3: 0.319
MRR: 0.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用成对共现信息提升大规模数据集上的知识图谱补全性能 | 论文 | HyperAI超神经