3 个月前

Sparkly:一种简单但出人意料强大的 TF/IDF Blocker 用于实体匹配

Sparkly:一种简单但出人意料强大的 TF/IDF Blocker 用于实体匹配

摘要

实体匹配中的阻断(blocking)是一项关键任务。尽管已有大量阻断方案被提出,但据我们所知,基于广为人知的TF-IDF度量的阻断方法几乎未受到关注。然而,在使用Lucene对TF-IDF阻断进行实验时,我们发现其表现相当出色。因此,本文对TF-IDF阻断进行了深入研究。我们提出了Sparkly,该系统利用Lucene在Spark集群上以分布式“无共享”(share-nothing)的方式实现top-k TF-IDF阻断。我们还开发了若干技术,用于自动识别适用于阻断的优质属性和分词器,从而使Sparkly完全自动化。通过大量实验,我们证明Sparkly在性能上显著优于8种当前最先进的阻断器。最后,我们对Sparkly的性能进行了深入分析,涵盖召回率/输出规模以及运行时间两个方面。研究结果表明:(a)TF-IDF阻断应获得更多关注;(b)Sparkly可作为未来阻断研究的强有力基线,所有相关工作都应与之对比;(c)未来阻断研究应认真考虑top-k阻断策略,该策略有助于提升召回率;同时应采用分布式无共享架构,以增强系统的可扩展性、可预测性和可扩展性。

基准测试

基准方法指标
blocking-on-abt-buySparkly k=50
Candidate Set Size: 54500
Recall: 99.2
blocking-on-abt-buySparkly k=10
Candidate Set Size: 10900
Recall: 98.1
blocking-on-amazon-googleSparkly k=50
Candidate Set Size: 165900
Recall: 99.2
blocking-on-amazon-googleSparkly k=10
Candidate Set Size: 33300
Recall: 96.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sparkly:一种简单但出人意料强大的 TF/IDF Blocker 用于实体匹配 | 论文 | HyperAI超神经