3 个月前

TORQUE:一个时间顺序问答阅读理解数据集

TORQUE:一个时间顺序问答阅读理解数据集

摘要

阅读能力的一个关键方面是理解文本中事件之间的时序关系,即使这些关系并未被明确陈述。然而,当前的机器阅读理解评估基准几乎不包含测试时序现象的问题,导致基于这些基准训练的系统无法回答诸如“[某个事件]之前/之后发生了什么?”之类的问题。为此,我们提出了TORQUE,一个基于3200条新闻片段、包含21000个由人工生成的、聚焦时序关系的阅读理解问题的新英语阅读理解基准。实验结果表明,RoBERTa-large在TORQUE测试集上的准确匹配得分仅为51%,相比人类表现仍落后约30个百分点。

基准测试

基准方法指标
question-answering-on-torqueRoBERTa-large
C: 34.5
EM: 51.1
F1: 75.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TORQUE:一个时间顺序问答阅读理解数据集 | 论文 | HyperAI超神经