3 个月前

精彩问题及其发现之处:童话故事QA——一项用于叙事理解的真实数据集

精彩问题及其发现之处:童话故事QA——一项用于叙事理解的真实数据集

摘要

问答(Question Answering, QA)是评估和训练机器及学龄前至小学阶段儿童叙事理解能力的一种基础手段,然而目前仍缺乏为该目的精心设计的高质量QA数据集。尤其值得注意的是,现有数据集很少对细粒度阅读能力进行区分,例如对不同类型叙事元素的理解能力。基于阅读教育领域的研究成果,我们提出了FairytaleQA——一个面向幼儿园至八年级学生的叙事理解专用数据集。该数据集由教育专家依据实证理论框架构建,共包含来自278篇适合儿童阅读的故事的10,580个显性与隐性问题,覆盖七类叙事元素或关系。FairytaleQA具有双重价值:其一,我们在该数据集上测试了现有QA模型,结果表明该标注体系有助于评估模型在细粒度学习方面的表现;其二,该数据集可支持教育领域内的问题生成(Question Generation, QG)任务。通过与多种QG模型进行基准对比,我们发现基于FairytaleQA训练的QG模型能够生成质量更高、多样性更强的问题。

代码仓库

uci-soe/fairytaleqadata
官方
GitHub 中提及

基准测试

基准方法指标
question-answering-on-fairytaleqaBART
F1: 0.088
Rouge-L: 0.108
question-answering-on-fairytaleqaBART fine-tuned on FairytaleQA
F1: 0.536
Rouge-L: 0.533
question-answering-on-fairytaleqaDistilBERT
F1: 0.082
Rouge-L: 0.097
question-answering-on-fairytaleqaBART fine-tuned on NarrativeQA
F1: 0.492
Rouge-L: 0.475
question-generation-on-fairytaleqaBART fine-tuned on NarrativeQA and FairytaleQA
ROUGE-L: 0.519
question-generation-on-fairytaleqaBART fine-tuned on FairytaleQA
ROUGE-L: 0.527
question-generation-on-fairytaleqaBART fine-tuned on NarrativeQA
ROUGE-L: 0.442

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
精彩问题及其发现之处:童话故事QA——一项用于叙事理解的真实数据集 | 论文 | HyperAI超神经