3 个月前

TAPAS:通过预训练实现弱监督的表格解析

TAPAS:通过预训练实现弱监督的表格解析

摘要

在表格上回答自然语言问题通常被视为一种语义解析任务。为了降低完整逻辑形式的标注成本,一种流行的方法采用弱监督学习,仅使用答案(denotation)而非完整的逻辑形式进行训练。然而,从弱监督中训练语义解析器存在诸多挑战,且生成的逻辑形式仅作为获取最终答案的中间步骤。本文提出TAPAS,一种无需生成逻辑形式即可实现表格问答的方法。TAPAS基于弱监督进行训练,通过选择表格中的单元格,并可选地对所选单元格应用相应的聚合操作,直接预测答案。TAPAS扩展了BERT的架构,将表格作为输入进行编码,利用从维基百科爬取的文本片段与表格进行有效的联合预训练,并实现端到端的训练。我们在三个不同的语义解析数据集上进行了实验,结果表明,TAPAS在性能上优于或媲美现有语义解析模型:在SQA数据集上,将最先进准确率从55.1提升至67.2;在WIKISQL和WIKITQ上达到与当前最优模型相当的性能,且模型结构更为简洁。此外,我们发现,在本设置下迁移学习极为简单有效——从WIKISQL迁移到WIKITQ即可获得48.7的准确率,较当前最优结果高出4.2个百分点。

基准测试

基准方法指标
semantic-parsing-on-sqaTAPAS-Large
Accuracy: 67.2
semantic-parsing-on-wikisql-1TAPAS-Large (weak supervision)
Denotation accuracy (test): 83.6
semantic-parsing-on-wikitablequestionsTAPAS-Large (pre-trained on SQA)
Accuracy (Dev): /
Accuracy (Test): 48.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TAPAS:通过预训练实现弱监督的表格解析 | 论文 | HyperAI超神经