Ying XuDakuo WangMo YuDaniel RitchieBingsheng YaoTongshuang WuZheng ZhangToby Jia-Jun LiNora BradfordBranda SunTran Bao HoangYisi SangYufang HouXiaojuan MaDiyi YangNanyun PengZhou YuMark Warschauer

摘要
问答(Question Answering, QA)是评估和训练机器及学龄前至小学阶段儿童叙事理解能力的一种基础手段,然而目前仍缺乏为该目的精心设计的高质量QA数据集。尤其值得注意的是,现有数据集很少对细粒度阅读能力进行区分,例如对不同类型叙事元素的理解能力。基于阅读教育领域的研究成果,我们提出了FairytaleQA——一个面向幼儿园至八年级学生的叙事理解专用数据集。该数据集由教育专家依据实证理论框架构建,共包含来自278篇适合儿童阅读的故事的10,580个显性与隐性问题,覆盖七类叙事元素或关系。FairytaleQA具有双重价值:其一,我们在该数据集上测试了现有QA模型,结果表明该标注体系有助于评估模型在细粒度学习方面的表现;其二,该数据集可支持教育领域内的问题生成(Question Generation, QG)任务。通过与多种QG模型进行基准对比,我们发现基于FairytaleQA训练的QG模型能够生成质量更高、多样性更强的问题。
代码仓库
uci-soe/fairytaleqadata
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-fairytaleqa | BART | F1: 0.088 Rouge-L: 0.108 |
| question-answering-on-fairytaleqa | BART fine-tuned on FairytaleQA | F1: 0.536 Rouge-L: 0.533 |
| question-answering-on-fairytaleqa | DistilBERT | F1: 0.082 Rouge-L: 0.097 |
| question-answering-on-fairytaleqa | BART fine-tuned on NarrativeQA | F1: 0.492 Rouge-L: 0.475 |
| question-generation-on-fairytaleqa | BART fine-tuned on NarrativeQA and FairytaleQA | ROUGE-L: 0.519 |
| question-generation-on-fairytaleqa | BART fine-tuned on FairytaleQA | ROUGE-L: 0.527 |
| question-generation-on-fairytaleqa | BART fine-tuned on NarrativeQA | ROUGE-L: 0.442 |