4 个月前

TAPEX:通过学习神经SQL执行器进行表格预训练

TAPEX:通过学习神经SQL执行器进行表格预训练

摘要

近期在语言模型预训练方面取得的重大进展,主要是通过利用大规模的非结构化文本数据实现的。然而,由于缺乏大规模的高质量表格数据,将预训练应用于结构化表格数据仍然是一个挑战。本文提出了一种名为TAPEX的方法,表明可以通过在合成语料库上学习神经SQL执行器来实现表格预训练,该合成语料库是通过自动合成可执行的SQL查询及其执行输出获得的。TAPEX通过引导语言模型在多样化的、大规模的和高质量的合成语料库上模仿SQL执行器,解决了数据稀缺的问题。我们在四个基准数据集上对TAPEX进行了评估。实验结果表明,TAPEX大幅超越了以往的表格预训练方法,并在所有这些数据集上取得了新的最佳结果。这包括在弱监督WikiSQL表示准确性上的提升至89.5%(+2.3%),WikiTableQuestions表示准确性上的提升至57.5%(+4.8%),SQA表示准确性上的提升至74.5%(+3.5%),以及TabFact准确性上的提升至84.2%(+3.2%)。据我们所知,这是首次通过合成可执行程序探索表格预训练,并在各种下游任务中取得新的最佳结果的工作。我们的代码可以在https://github.com/microsoft/Table-Pretraining 获取。

代码仓库

基准测试

基准方法指标
semantic-parsing-on-sqaTAPEX-Large
Denotation Accuracy: 74.5
semantic-parsing-on-wikisql-1TAPEX-Large (weak supervision)
Denotation accuracy (test): 89.5
semantic-parsing-on-wikitablequestionsTAPEX-Large
Accuracy (Dev): 57.0
Accuracy (Test): 57.5
table-based-fact-verification-on-tabfactTAPEX-Large
Test: 84.2
Val: 84.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TAPEX:通过学习神经SQL执行器进行表格预训练 | 论文 | HyperAI超神经