3 个月前

TorchicTab:基于Wikidata与语言模型的语义表格标注

TorchicTab:基于Wikidata与语言模型的语义表格标注

摘要

大量表格数据存在并被各类应用广泛使用,但其中相当一部分缺乏必要的语义信息,导致用户和机器难以准确理解这些数据。这种表格语义理解的缺失,严重制约了其在数据处理分析流程中的应用。尽管已有若干解决方案可用于语义化解析表格,但这些方法通常局限于特定的标注任务和表格类型,且依赖庞大的知识库,难以在真实场景中复用。因此,亟需开发更加鲁棒、能够生成更精确标注并适应多种表格类型的系统。为推动表格语义解析技术的发展,国际上设立了“表格数据到知识图谱匹配的语义网络挑战赛”(Semantic Web Challenge on Tabular Data to Knowledge Graph Matching,简称 SemTab),旨在通过在多样化的数据集和任务上评估系统性能,建立统一的基准测试体系。本文提出了一种名为 TorchicTab 的通用型语义表格解析系统。该系统能够通过利用外部知识图谱(如 Wikidata)或预先标注并包含预定义术语的表格数据,对结构各异的表格进行有效标注。我们在 SemTab 挑战赛所涵盖的不同标注任务上对 TorchicTab 进行了全面评估。实验结果表明,该系统在多种数据集上均能实现高精度的语义标注,展现出良好的泛化能力与实用性。

基准测试

基准方法指标
column-type-annotation-on-wdc-sotab-v2TorchicTab
Micro F1: 89.66
columns-property-annotation-on-wdc-sotab-v2TorchicTab
Micro F1: 87.11

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TorchicTab:基于Wikidata与语言模型的语义表格标注 | 论文 | HyperAI超神经