3 个月前

提升实体对齐速度10倍:基于归一化难样本挖掘的双注意力匹配网络

提升实体对齐速度10倍:基于归一化难样本挖掘的双注意力匹配网络

摘要

在多源知识图谱(Knowledge Graph, KG)中寻找等价实体是实现知识图谱集成的关键步骤,也称为实体对齐(Entity Alignment, EA)。然而,现有大多数EA方法在效率和可扩展性方面表现不佳。近期一项综述指出,部分方法处理包含20万节点的DWY100K数据集时,甚至需要数天时间。我们认为,过度复杂的图编码器结构以及低效的负样本采样策略是导致这一问题的两大主要原因。本文提出一种新型知识图谱编码器——双注意力匹配网络(Dual Attention Matching Network, Dual-AMN),该模型不仅能智能地建模图内与图间信息,还能显著降低计算复杂度。此外,我们设计了归一化难样本挖掘损失函数(Normalized Hard Sample Mining Loss),以更平滑地选择难负样本,有效缓解损失函数的偏移问题。在多个广泛使用的公开数据集上的实验结果表明,所提方法在保持高精度的同时实现了卓越的效率。在DWY100K数据集上,整个运行过程仅需1,100秒,相较之前的工作至少提升10倍以上。此外,该方法在所有测试数据集上的性能均优于现有工作,Hits@1与MRR指标分别提升了6%至13%。

代码仓库

MaoXinn/Dual-AMN
官方
tf
GitHub 中提及

基准测试

基准方法指标
entity-alignment-on-dbp15k-fr-enDual-AMN
Hits@1: 0.954
entity-alignment-on-dbp15k-ja-enDual-AMN
Hits@1: 0.892
entity-alignment-on-dbp15k-zh-enDual-AMN
Hits@1: 0.861
entity-alignment-on-dicews-1kDual-AMN
Hit@1: 71.6
entity-alignment-on-yago-wiki50kDual-AMN
Hit@1: 89.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提升实体对齐速度10倍:基于归一化难样本挖掘的双注意力匹配网络 | 论文 | HyperAI超神经