4 个月前

使用ChatGPT进行列类型注释

使用ChatGPT进行列类型注释

摘要

列类型注释是指对关系表中的各列进行标注,以反映每列所包含值的语义类型。在数据湖环境中,列类型注释是数据搜索和数据集成的重要预处理步骤。目前最先进的列类型注释方法要么依赖于将表格列与知识图谱的属性进行匹配,要么通过微调预训练语言模型(如BERT)来进行列类型注释。在本研究中,我们采取了一种不同的方法,探索使用ChatGPT进行列类型注释。我们在零样本和少样本设置下评估了不同的提示设计,并尝试向模型提供任务定义和详细指令。此外,我们实现了一个两步表格注释管道,首先确定表格中描述的实体类别,然后根据该类别要求ChatGPT仅使用整体词汇的相关子集来标注列。通过使用指令以及两步管道,ChatGPT在零样本和单样本设置下的F1分数超过了85%。为了达到类似的F1分数,RoBERTa模型需要使用356个示例进行微调。这一对比表明,在没有或仅有少量任务特定示例的情况下,ChatGPT能够为列类型注释任务提供具有竞争力的结果。

代码仓库

wbsg-uni-mannheim/tabanngpt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
column-type-annotation-on-wdc-sotab-v2gpt-3.5-turbo-0301-two-step
Micro F1: 89.47

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用ChatGPT进行列类型注释 | 论文 | HyperAI超神经