
摘要
检测关系表中数据列的语义类型对于数据清洗、模式匹配、数据发现和语义搜索等各种数据准备和信息检索任务至关重要。然而,现有的检测方法要么在处理脏数据时表现不佳,要么仅支持有限数量的语义类型,要么未能结合列的表格上下文,或者依赖于大量训练样本。我们介绍了一种名为Sato的混合机器学习模型,该模型能够自动检测表格中列的语义类型,利用来自上下文和列值的信号。Sato结合了在大规模表格语料库上训练的深度学习模型、主题建模和结构化预测,分别实现了支持加权F1分数为0.925和宏平均F1分数为0.735,显著超过了现有最先进方法的表现。我们对Sato的整体性能及其按类型的性能进行了深入分析,讨论了各个建模组件以及特征类别对其性能的贡献。
代码仓库
megagonlabs/sato
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| column-type-annotation-on-viznet-sato-1 | Sato | Macro-F1: 73.5 Weighted-F1: 92.5 |
| column-type-annotation-on-viznet-sato-full | Sato | Macro-F1: 75.6 Weighted-F1: 90.2 |