3 个月前

Sudowoodo:面向多用途数据集成与预处理的对比自监督学习

Sudowoodo:面向多用途数据集成与预处理的对比自监督学习

摘要

机器学习(Machine Learning, ML)在数据管理任务中正发挥着日益重要的作用,尤其是在数据集成与准备(Data Integration and Preparation, DI&P)领域。然而,基于机器学习的方法能否取得成功,高度依赖于大规模、高质量标注数据集的可用性。此外,DI&P任务与处理流程的多样性往往需要对机器学习解决方案进行定制化开发,这带来了显著的模型工程与实验成本,从而在很大程度上制约了机器学习方法在新领域和新任务中的推广应用。本文提出Sudowoodo,一种基于对比学习(contrastive representation learning)的多功能DI&P框架。Sudowoodo采用统一的、基于匹配的问题定义,能够涵盖广泛的DI&P任务,包括数据集成中的实体匹配(Entity Matching, EM)、数据清洗中的错误修正、数据发现中的语义类型检测等。通过对比学习,Sudowoodo能够从大规模数据项语料库(如实体条目、表格列)中无须依赖任何标签,自动学习具有相似性感知能力的数据表示。这些学习到的表示可直接用于下游任务,或仅需少量标注数据即可进行微调,从而支持多种DI&P应用场景。实验结果表明,Sudowoodo在不同监督程度下均取得了多项最先进的性能表现,显著优于以往针对实体匹配任务设计的最佳专用阻塞(blocking)或匹配方案。此外,Sudowoodo在数据清洗和语义类型检测任务中也展现出优异的性能,充分体现了其在DI&P应用中的高度通用性与强大适应能力。

代码仓库

megagonlabs/sudowoodo
pytorch
GitHub 中提及

基准测试

基准方法指标
blocking-on-abt-buySudowoodo
Candidate Set Size: 3276
Recall: 88.6
blocking-on-amazon-googleSudowoodo
Candidate Set Size: 48390
Recall: 97.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sudowoodo:面向多用途数据集成与预处理的对比自监督学习 | 论文 | HyperAI超神经