
摘要
在本项研究中,我们对知识图谱实体对齐任务中两种当前最先进的(State-of-the-Art, SotA)方法进行了系统而深入的考察。为此,我们首先对基准测试流程进行了细致分析,识别出若干缺陷,这些缺陷导致原始研究中报告的结果往往难以进行有效比较。此外,我们怀疑在该领域中普遍存在一种现象:直接在测试集上进行超参数优化,这显著降低了所报告性能指标的可信度与信息价值。为此,我们选取了具有代表性的基准数据集样本,并详细描述了它们的特性。同时,我们还考察了实体表示的不同初始化方式,因为这一因素对模型性能具有决定性影响。为了确保评估的公平性,我们采用统一的训练/验证/测试集划分策略,使所有方法在所有数据集上均在相同条件下进行评估。在实验评估中,我们获得了若干有趣的发现:尽管大多数情况下SotA方法的表现优于基线方法,但当数据集包含噪声时,其性能显著下降——而这正是大多数真实应用场景的典型特征。此外,通过消融实验我们发现,相较于以往的假设,SotA方法中某些特定组件或特征对取得良好性能起到了更为关键的作用。相关代码已公开,可访问:https://github.com/mberr/ea-sota-comparison。
代码仓库
mberr/ea-sota-comparison
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-alignment-on-dbp15k-fr-en | Zero Shot | Hits@1: 0.8370 |
| entity-alignment-on-dbp15k-ja-en | Zero Shot | Hits@1: 0.6564 |
| entity-alignment-on-dbp15k-zh-en | Zero Shot | Hits@1: 0.594 |
| entity-alignment-on-dbp15k-zh-en | RDGCN | Hits@1: 0.6954 |