{Jakob UszkoreitAndrew M. DaiMing-Wei ChangChris AlbertiTom KwiatkowskiSlav PetrovMichael CollinsMatthew KelceyLlion JonesJennimaria PalomakiIllia PolosukhinOlivia RedfieldKenton LeeQuoc LeJacob DevlinAnkur ParikhKristina ToutanovaDanielle Epstein}
摘要
我们提出了自然问题语料库(Natural Questions Corpus),这是一个用于问答任务的数据集。该数据集中的问题来源于真实用户在谷歌搜索引擎中提交的匿名化、聚合后的查询请求。在标注过程中,标注人员会看到一个问题以及谷歌搜索结果前五名中的一个维基百科页面,随后需标注一个长答案(通常为一段文字)和一个短答案(一个或多个实体),若该页面中不存在相应答案,则标记为“无”(null)。此次公开发布包含:307,373个训练样本,每个样本配有单一标注;7,830个开发样本,每个样本配有五重标注;另有7,842个测试样本,同样为五重标注并被隔离保存以供测试使用。我们通过实验验证了该数据集的质量。此外,我们对302个样本进行了25重标注的分析,深入揭示了人类在该标注任务中的变异性。我们提出了适用于评估问答系统性能的稳健指标,展示了在这些指标下人类表现的高上限水平,并基于相关文献中的先进方法建立了基线实验结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-natural-questions-long | DecAtt + DocReader | F1: 54.8 |