
摘要
近期在语言模型预训练方面取得的重大进展,主要是通过利用大规模的非结构化文本数据实现的。然而,由于缺乏大规模的高质量表格数据,将预训练应用于结构化表格数据仍然是一个挑战。本文提出了一种名为TAPEX的方法,表明可以通过在合成语料库上学习神经SQL执行器来实现表格预训练,该合成语料库是通过自动合成可执行的SQL查询及其执行输出获得的。TAPEX通过引导语言模型在多样化的、大规模的和高质量的合成语料库上模仿SQL执行器,解决了数据稀缺的问题。我们在四个基准数据集上对TAPEX进行了评估。实验结果表明,TAPEX大幅超越了以往的表格预训练方法,并在所有这些数据集上取得了新的最佳结果。这包括在弱监督WikiSQL表示准确性上的提升至89.5%(+2.3%),WikiTableQuestions表示准确性上的提升至57.5%(+4.8%),SQA表示准确性上的提升至74.5%(+3.5%),以及TabFact准确性上的提升至84.2%(+3.2%)。据我们所知,这是首次通过合成可执行程序探索表格预训练,并在各种下游任务中取得新的最佳结果的工作。我们的代码可以在https://github.com/microsoft/Table-Pretraining 获取。
代码仓库
pwc-1/Paper-9/tree/main/1/tapex
mindspore
sohanpatnaik106/cabinet_qa
pytorch
GitHub 中提及
MindCode-4/code-5/tree/main/tapex
mindspore
microsoft/Table-Pretraining
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-parsing-on-sqa | TAPEX-Large | Denotation Accuracy: 74.5 |
| semantic-parsing-on-wikisql-1 | TAPEX-Large (weak supervision) | Denotation accuracy (test): 89.5 |
| semantic-parsing-on-wikitablequestions | TAPEX-Large | Accuracy (Dev): 57.0 Accuracy (Test): 57.5 |
| table-based-fact-verification-on-tabfact | TAPEX-Large | Test: 84.2 Val: 84.6 |