3 个月前

去噪表格文本检索在开放域问答中的应用

去噪表格文本检索在开放域问答中的应用

摘要

在表格与文本开放域问答任务中,检索系统需从表格和文本中检索出与问题相关的证据以生成答案。以往针对表格与文本开放域问答的研究面临两个常见挑战:其一,其检索模型在训练过程中易受训练数据集中假阳性标签的影响;其二,对于需要跨表格进行推理的问题,现有方法往往难以提供恰当的证据。为应对上述问题,我们提出了一种去噪表格-文本检索器(Denoised Table-Text Retriever, DoTTeR)。该方法首先通过一个假阳性检测模型,对训练样本进行评估并筛选出问题相关性得分较低的实例,从而构建一个包含更少假阳性标签的去噪训练数据集;随后,我们将表格级别的排序信息引入检索器,以辅助识别需要跨表格推理的问题所需的相关证据。为有效编码此类排序信息,我们对一个具备排序感知能力的列编码器进行微调,使其能够识别列中的最小值与最大值。实验结果表明,DoTTeR在检索召回率以及下游问答任务上均显著优于多个强基线模型。相关代码已开源,地址为:https://github.com/deokhk/DoTTeR。

代码仓库

deokhk/dotter
官方
pytorch

基准测试

基准方法指标
question-answering-on-ott-qaDoTTeR
ANS-EM: 35.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
去噪表格文本检索在开放域问答中的应用 | 论文 | HyperAI超神经