7 个月前

自然语言处理

Erhard Rahm Eric Peukert Markus Nentwig Alieh Saeedi

摘要

实体消歧用于识别语义上等价的实体，例如描述同一产品或同一客户的信息。在大数据应用中，该任务尤为具有挑战性，因为需要匹配并整合来自多个数据源的海量数据。为此，我们提出了一种可扩展的实体消歧框架——FAMER（Fast Multi-source Entity Resolution system），该框架基于 Apache Flink 实现分布式执行，能够全面地对来自多个数据源的实体进行匹配。为实现这一目标，FAMER 集成了多种聚类算法，将来自不同数据源的匹配实体归入同一聚类簇中。除了已知的聚类方法外，FAMER 还引入了针对多源实体消歧任务专门设计的新颖聚类策略。我们对八种不同的聚类算法在真实世界数据集及合成生成数据集上进行了详尽的对比评估，评估内容涵盖匹配质量以及在不同机器数量和数据规模下的可扩展性表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

Erhard Rahm Eric Peukert Markus Nentwig Alieh Saeedi

摘要

实体消歧用于识别语义上等价的实体，例如描述同一产品或同一客户的信息。在大数据应用中，该任务尤为具有挑战性，因为需要匹配并整合来自多个数据源的海量数据。为此，我们提出了一种可扩展的实体消歧框架——FAMER（Fast Multi-source Entity Resolution system），该框架基于 Apache Flink 实现分布式执行，能够全面地对来自多个数据源的实体进行匹配。为实现这一目标，FAMER 集成了多种聚类算法，将来自不同数据源的匹配实体归入同一聚类簇中。除了已知的聚类方法外，FAMER 还引入了针对多源实体消歧任务专门设计的新颖聚类策略。我们对八种不同的聚类算法在真实世界数据集及合成生成数据集上进行了详尽的对比评估，评估内容涵盖匹配质量以及在不同机器数量和数据规模下的可扩展性表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供