7 个月前

摘要

常识推理是人工智能的一项关键能力，但构建能够测试常识的具有挑战性的数据集却非常困难。基于大型预训练语言模型的最近神经问答系统已经在常识知识基准测试中达到了接近人类水平的表现。然而，这些系统并不具备人类级别的常识，而是通过利用数据集的局限性来实现人类水平的得分。我们引入了CODAH数据集，这是一个用于测试常识的对抗性构建评估数据集。CODAH是对最近提出的SWAG数据集的一个具有挑战性的扩展，后者通过描述视频中观察到的情境的完形填空问题来测试常识知识。为了生成一个更加困难的数据集，我们引入了一种新的问题获取程序，该程序由工作人员设计旨在针对最先进神经问答系统的弱点的问题。工作人员在提交前和微调后（在交叉验证中）都能因模型无法正确回答的问题而获得奖励。我们通过这一程序创建了2.8万个问题，并对多个最先进问答系统在我们的数据集上的表现进行了评估。我们发现，人类的表现为95.3%，而最佳基线模型BERT-Large的准确率为67.5%，两者之间存在显著差距。

源 PDF