
摘要
基于神经嵌入的机器学习模型在预测知识图谱中的新链接方面展现出巨大潜力。然而,由于缺乏可解释性,其实际应用价值受到限制。近期,一种完全可解释的基于规则的算法AnyBURL在多个通用链接预测基准测试中取得了极具竞争力的性能。然而,当前多种规则预测结果的聚合方法仍受规则冗余问题的影响。为此,本文提出SAFRAN规则应用框架,通过一种名为“非冗余噪声或”(Non-redundant Noisy-OR)的新聚合机制,在聚合前检测并聚类冗余规则,从而有效缓解该问题。实验结果表明,SAFRAN在标准通用基准数据集FB15K-237、WN18RR和YAGO3-10上实现了完全可解释链接预测的新SOTA(State-of-the-Art)性能。此外,SAFRAN在FB15K-237和WN18RR上的表现超越了多种成熟的嵌入式算法,并显著缩小了基于规则的方法与嵌入式方法在YAGO3-10上的性能差距。
代码仓库
OpenBioLink/SAFRAN
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| link-prediction-on-fb15k-237 | SAFRAN | Hits@1: 0.298 Hits@10: 0.537 MRR: 0.389 |
| link-prediction-on-wn18rr | SAFRAN (white box, rule based) | Hits@1: 0.459 Hits@10: 0.578 MRR: 0.502 |
| link-prediction-on-yago3-10 | SAFRAN (white box, rule based) | Hits@1: 0.492 Hits@10: 0.693 MRR: 0.564 |