3 个月前

SCDE:基于考试生成的高质量干扰项的句子完形填空数据集

SCDE:基于考试生成的高质量干扰项的句子完形填空数据集

摘要

我们提出了SCDE数据集,用于通过句子预测任务评估计算模型的性能。SCDE是一个由人工构建的句子完形填空数据集,其语料来源于公开的中小学英语考试题目。本任务要求模型从一个共享的候选词集合中,为一段文本中的多个空白处填入合适的词语,其中干扰项由英语教师精心设计。实验结果表明,该任务不仅需要利用超出当前句子邻域的非局部、语篇层面的上下文信息,而且各空白之间存在显著的相互依赖关系,彼此之间会严重干扰对方的语境理解。此外,通过消融实验我们证明,这些干扰项具有较高的质量,显著提升了任务难度。实验结果还显示,当前先进模型的平均表现(72%)与人类水平(87%)之间存在显著差距,这为未来模型的改进提供了明确方向,激励研究者进一步缩小这一性能鸿沟。

代码仓库

shawnkx/SCDE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
question-answering-on-scde-1bert-large-uncased + APN
BA: 0.717
DE: 0.661
PA: 0.299

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SCDE:基于考试生成的高质量干扰项的句子完形填空数据集 | 论文 | HyperAI超神经