3 个月前

GraPPa:用于表格语义解析的语法增强预训练

GraPPa:用于表格语义解析的语法增强预训练

摘要

我们提出了一种名为GraPPa的有效表格语义解析预训练方法,该方法在文本与表格数据的联合表示中学习一种组合性归纳偏置(compositional inductive bias)。我们通过从现有的文本到SQL数据集上归纳出的同步上下文无关语法(Synchronous Context-Free Grammar, SCFG),在高质量表格上构建合成的“问题-SQL”配对数据。我们采用一种新颖的文本-模式链接目标函数(text-schema linking objective)对模型在合成数据上进行预训练,该目标函数能够为每个问题-SQL配对预测表格字段在对应SQL语句中的句法角色。为了保持模型对真实世界数据的表示能力,我们还引入了多个现有表格与语言数据集上的掩码语言建模(Masked Language Modeling, MLM)任务,以对预训练过程进行正则化。在四个主流的全监督与弱监督表格语义解析基准测试中,GraPPa显著优于以RoBERTa-large作为特征表示层的基线方法,并在所有任务上均取得了新的最先进(state-of-the-art)性能。

代码仓库

taoyds/grappa
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-parsing-on-spiderRATSQL + Grammar-Augmented Pre-Training
Accuracy: 69.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GraPPa:用于表格语义解析的语法增强预训练 | 论文 | HyperAI超神经