3 个月前

基于深度学习的实体匹配阻断方法:设计空间探索

基于深度学习的实体匹配阻断方法:设计空间探索

摘要

实体匹配(Entity Matching, EM)旨在识别指代同一现实世界实体的数据实例。目前大多数EM解决方案采用“阻断(blocking)+匹配(matching)”的两阶段流程。尽管已有大量研究将深度学习(Deep Learning, DL)应用于匹配阶段,但将其应用于阻断阶段的工作仍相对较少。现有阻断方法在深度学习应用上存在局限:多数仅采用较为简单的深度学习形式,且部分方法依赖于标注的训练数据。本文提出DeepBlocker框架,显著推进了深度学习在实体匹配阻断阶段的应用水平。首先,我们定义了一个涵盖多种复杂度的深度学习阻断解决方案空间,该空间包含并整合了此前大多数相关工作。随后,我们在该空间中设计了八种具有代表性的解决方案。这些方法无需依赖标注训练数据,同时充分利用了深度学习领域的最新进展,如序列建模、Transformer架构以及自监督学习等技术。通过大量实验,我们系统评估了不同方案在不同类型数据集(结构化数据、文本数据及脏数据)上的表现,确定了各类方案的最佳适用场景。实验结果表明,在脏数据和文本数据上,所提出的最优方案显著优于当前最先进的深度学习阻断方法,以及现有最先进的非深度学习方法(包括一项工业级的先进非DL方案);而在结构化数据上,其性能也达到了相当水平,具有可比性。最后,我们进一步验证了最优深度学习方案与最优非深度学习方案相结合的协同效应,发现二者融合后性能进一步提升,这为未来实体匹配研究开辟了新的方向。

基准测试

基准方法指标
blocking-on-abt-buyAuto
Candidate Set Size: 21600
Recall: 87.2
blocking-on-amazon-googleAuto
Candidate Set Size: 68200
Recall: 97.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度学习的实体匹配阻断方法:设计空间探索 | 论文 | HyperAI超神经