6 个月前

自然语言处理

自然语言处理

Tao Yu Chien-Sheng Wu Xi Victoria Lin Bailin Wang Yi Chern Tan Xinyi Yang Dragomir Radev Richard Socher Caiming Xiong

摘要

我们提出了一种名为GraPPa的有效表格语义解析预训练方法，该方法在文本与表格数据的联合表示中学习一种组合性归纳偏置（compositional inductive bias）。我们通过从现有的文本到SQL数据集上归纳出的同步上下文无关语法（Synchronous Context-Free Grammar, SCFG），在高质量表格上构建合成的“问题-SQL”配对数据。我们采用一种新颖的文本-模式链接目标函数（text-schema linking objective）对模型在合成数据上进行预训练，该目标函数能够为每个问题-SQL配对预测表格字段在对应SQL语句中的句法角色。为了保持模型对真实世界数据的表示能力，我们还引入了多个现有表格与语言数据集上的掩码语言建模（Masked Language Modeling, MLM）任务，以对预训练过程进行正则化。在四个主流的全监督与弱监督表格语义解析基准测试中，GraPPa显著优于以RoBERTa-large作为特征表示层的基线方法，并在所有任务上均取得了新的最先进（state-of-the-art）性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Tao Yu Chien-Sheng Wu Xi Victoria Lin Bailin Wang Yi Chern Tan Xinyi Yang Dragomir Radev Richard Socher Caiming Xiong

摘要

我们提出了一种名为GraPPa的有效表格语义解析预训练方法，该方法在文本与表格数据的联合表示中学习一种组合性归纳偏置（compositional inductive bias）。我们通过从现有的文本到SQL数据集上归纳出的同步上下文无关语法（Synchronous Context-Free Grammar, SCFG），在高质量表格上构建合成的“问题-SQL”配对数据。我们采用一种新颖的文本-模式链接目标函数（text-schema linking objective）对模型在合成数据上进行预训练，该目标函数能够为每个问题-SQL配对预测表格字段在对应SQL语句中的句法角色。为了保持模型对真实世界数据的表示能力，我们还引入了多个现有表格与语言数据集上的掩码语言建模（Masked Language Modeling, MLM）任务，以对预训练过程进行正则化。在四个主流的全监督与弱监督表格语义解析基准测试中，GraPPa显著优于以RoBERTa-large作为特征表示层的基线方法，并在所有任务上均取得了新的最先进（state-of-the-art）性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供