3 个月前

TaBERT:面向文本与表格数据联合理解的预训练

TaBERT:面向文本与表格数据联合理解的预训练

摘要

近年来,面向基于文本的自然语言(NL)理解任务,预训练语言模型(LMs)迅速发展。这类模型通常在自由形式的自然语言文本上进行训练,因此在处理如结构化数据上的语义解析等任务时可能表现不佳,这类任务需要对自由形式的自然语言问题与结构化表格数据(例如数据库表)进行联合推理。本文提出TaBERT,一种能够联合学习自然语言句子与(半)结构化表格表示的预训练语言模型。TaBERT在包含2600万张表格及其英文上下文的大规模语料库上进行训练。实验结果表明,采用TaBERT作为特征表示层的神经语义解析模型,在具有挑战性的弱监督语义解析基准数据集WikiTableQuestions上取得了新的最优性能,同时在文本到SQL数据集Spider上也表现出具有竞争力的性能。该模型的实现代码将发布于 http://fburl.com/TaBERT。

代码仓库

facebookresearch/tabert
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-parsing-on-wikitablequestionsMAPO + TABERTLarge (K = 3)
Accuracy (Dev): 52.2
Accuracy (Test): 51.8
text-to-sql-on-spiderMAPO + TABERTLarge (K = 3)
Exact Match Accuracy (Dev): 64.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TaBERT:面向文本与表格数据联合理解的预训练 | 论文 | HyperAI超神经