4 个月前

TAPEX：通过学习神经SQL执行器进行表格预训练

Qian Liu; Bei Chen; Jiaqi Guo; Morteza Ziyadi; Zeqi Lin; Weizhu Chen; Jian-Guang Lou

摘要

近期在语言模型预训练方面取得的重大进展，主要是通过利用大规模的非结构化文本数据实现的。然而，由于缺乏大规模的高质量表格数据，将预训练应用于结构化表格数据仍然是一个挑战。本文提出了一种名为TAPEX的方法，表明可以通过在合成语料库上学习神经SQL执行器来实现表格预训练，该合成语料库是通过自动合成可执行的SQL查询及其执行输出获得的。TAPEX通过引导语言模型在多样化的、大规模的和高质量的合成语料库上模仿SQL执行器，解决了数据稀缺的问题。我们在四个基准数据集上对TAPEX进行了评估。实验结果表明，TAPEX大幅超越了以往的表格预训练方法，并在所有这些数据集上取得了新的最佳结果。这包括在弱监督WikiSQL表示准确性上的提升至89.5%（+2.3%），WikiTableQuestions表示准确性上的提升至57.5%（+4.8%），SQA表示准确性上的提升至74.5%（+3.5%），以及TabFact准确性上的提升至84.2%（+3.2%）。据我们所知，这是首次通过合成可执行程序探索表格预训练，并在各种下游任务中取得新的最佳结果的工作。我们的代码可以在https://github.com/microsoft/Table-Pretraining 获取。

代码仓库

pwc-1/Paper-9/tree/main/1/tapex

mindspore

sohanpatnaik106/cabinet_qa

pytorch

GitHub 中提及

MindCode-4/code-5/tree/main/tapex

mindspore

microsoft/Table-Pretraining

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
semantic-parsing-on-sqa	TAPEX-Large	Denotation Accuracy: 74.5
semantic-parsing-on-wikisql-1	TAPEX-Large (weak supervision)	Denotation accuracy (test): 89.5
semantic-parsing-on-wikitablequestions	TAPEX-Large	Accuracy (Dev): 57.0 Accuracy (Test): 57.5
table-based-fact-verification-on-tabfact	TAPEX-Large	Test: 84.2 Val: 84.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供