6 个月前

摘要

阅读能力的一个关键方面是理解文本中事件之间的时序关系，即使这些关系并未被明确陈述。然而，当前的机器阅读理解评估基准几乎不包含测试时序现象的问题，导致基于这些基准训练的系统无法回答诸如“[某个事件]之前/之后发生了什么？”之类的问题。为此，我们提出了TORQUE，一个基于3200条新闻片段、包含21000个由人工生成的、聚焦时序关系的阅读理解问题的新英语阅读理解基准。实验结果表明，RoBERTa-large在TORQUE测试集上的准确匹配得分仅为51%，相比人类表现仍落后约30个百分点。

源 PDF