4 个月前

CODAH:一个由对抗性作者编写的常识问答数据集

CODAH:一个由对抗性作者编写的常识问答数据集

摘要

常识推理是人工智能的一项关键能力,但构建能够测试常识的具有挑战性的数据集却非常困难。基于大型预训练语言模型的最近神经问答系统已经在常识知识基准测试中达到了接近人类水平的表现。然而,这些系统并不具备人类级别的常识,而是通过利用数据集的局限性来实现人类水平的得分。我们引入了CODAH数据集,这是一个用于测试常识的对抗性构建评估数据集。CODAH是对最近提出的SWAG数据集的一个具有挑战性的扩展,后者通过描述视频中观察到的情境的完形填空问题来测试常识知识。为了生成一个更加困难的数据集,我们引入了一种新的问题获取程序,该程序由工作人员设计旨在针对最先进神经问答系统的弱点的问题。工作人员在提交前和微调后(在交叉验证中)都能因模型无法正确回答的问题而获得奖励。我们通过这一程序创建了2.8万个问题,并对多个最先进问答系统在我们的数据集上的表现进行了评估。我们发现,人类的表现为95.3%,而最佳基线模型BERT-Large的准确率为67.5%,两者之间存在显著差距。

代码仓库

Websail-NU/AQuA
官方
pytorch
iit-nlp-research/chatgpt-crawler
pytorch
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-codahBERT Large
Accuracy: 69.6
question-answering-on-codahBERT Large
Accuracy: 69.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CODAH:一个由对抗性作者编写的常识问答数据集 | 论文 | HyperAI超神经