3 个月前

基于FAMER的可扩展实体匹配与聚类

基于FAMER的可扩展实体匹配与聚类

摘要

实体消歧用于识别语义上等价的实体,例如描述同一产品或同一客户的信息。在大数据应用中,该任务尤为具有挑战性,因为需要匹配并整合来自多个数据源的海量数据。为此,我们提出了一种可扩展的实体消歧框架——FAMER(Fast Multi-source Entity Resolution system),该框架基于 Apache Flink 实现分布式执行,能够全面地对来自多个数据源的实体进行匹配。为实现这一目标,FAMER 集成了多种聚类算法,将来自不同数据源的匹配实体归入同一聚类簇中。除了已知的聚类方法外,FAMER 还引入了针对多源实体消歧任务专门设计的新颖聚类策略。我们对八种不同的聚类算法在真实世界数据集及合成生成数据集上进行了详尽的对比评估,评估内容涵盖匹配质量以及在不同机器数量和数据规模下的可扩展性表现。

基准测试

基准方法指标
entity-resolution-on-musicbrainz20kFAMER-Split
F1: 0.840
entity-resolution-on-musicbrainz20kFAMER-SplitMerge
F1: 0.880

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于FAMER的可扩展实体匹配与聚类 | 论文 | HyperAI超神经