3 个月前

基于表格与文本的开放域问答

基于表格与文本的开放域问答

摘要

在开放域问答(Open Question Answering, QA)任务中,答案通过检索并分析可能包含答案信息的文档来生成。大多数现有的开放域问答系统仅关注从非结构化文本中检索信息。本文首次将开放域问答扩展至表格数据与文本数据的联合处理,并提出一个全新的大规模数据集——开放表格与文本问答数据集(Open Table-and-Text Question Answering, OTT-QA),用于评估该任务上的性能表现。OTT-QA中的大多数问题需要在表格数据与非结构化文本之间进行多跳推理,且回答问题所需的证据可能以多种方式分布在两种不同类型的输入中,这使得证据检索极具挑战性——我们提出的基线模型采用迭代检索器结合基于BERT的阅读器,其精确匹配(Exact Match)得分低于10%。为应对这一挑战,我们提出两种新颖的技术来提升证据的检索与聚合能力。第一项技术采用“早期融合”(early fusion)策略,将多个高度相关的表格单元与文本片段整合为一个融合块,从而为检索器提供更丰富的上下文信息。第二项技术引入一种跨块阅读器(cross-block reader),利用全局-局部稀疏注意力机制建模多个检索到的证据块之间的跨依赖关系。将这两种技术相结合后,模型性能显著提升,精确匹配得分达到27%以上。

代码仓库

wenhuchen/OTT-QA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-ott-qaFusion Retriever+ETC
ANS-EM: 27.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于表格与文本的开放域问答 | 论文 | HyperAI超神经