4 个月前

Sato:表格中的上下文语义类型检测

Sato:表格中的上下文语义类型检测

摘要

检测关系表中数据列的语义类型对于数据清洗、模式匹配、数据发现和语义搜索等各种数据准备和信息检索任务至关重要。然而,现有的检测方法要么在处理脏数据时表现不佳,要么仅支持有限数量的语义类型,要么未能结合列的表格上下文,或者依赖于大量训练样本。我们介绍了一种名为Sato的混合机器学习模型,该模型能够自动检测表格中列的语义类型,利用来自上下文和列值的信号。Sato结合了在大规模表格语料库上训练的深度学习模型、主题建模和结构化预测,分别实现了支持加权F1分数为0.925和宏平均F1分数为0.735,显著超过了现有最先进方法的表现。我们对Sato的整体性能及其按类型的性能进行了深入分析,讨论了各个建模组件以及特征类别对其性能的贡献。

代码仓库

megagonlabs/sato
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
column-type-annotation-on-viznet-sato-1Sato
Macro-F1: 73.5
Weighted-F1: 92.5
column-type-annotation-on-viznet-sato-fullSato
Macro-F1: 75.6
Weighted-F1: 90.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Sato:表格中的上下文语义类型检测 | 论文 | HyperAI超神经