4 个月前

WinoGrande:大规模的对抗性温格拉德模式挑战

WinoGrande:大规模的对抗性温格拉德模式挑战

摘要

温格拉德模式挑战(Winograd Schema Challenge, WSC)(Levesque, Davis 和 Morgenstern 2011)是一项常识推理的基准测试,包含273个由专家设计的代词消解问题,最初旨在无法被依赖选择偏好或词汇关联的统计模型解决。然而,最近神经语言模型的进步已经在WSC的不同变体上达到了约90%的准确率。这引发了一个重要问题:这些模型是否真正获得了稳健的常识能力,还是它们依赖于数据集中的虚假偏差,从而高估了机器常识的真实能力。为了探讨这一问题,我们引入了WinoGrande,这是一个受原始WSC设计启发的大规模数据集,包含44,000个问题,旨在提高数据集的规模和难度。数据集构建的关键步骤包括:(1) 精心设计的众包程序;(2) 使用一种新颖的AfLite算法系统地减少偏差,该算法将人类可检测的词汇关联推广到机器可检测的嵌入关联。在WinoGrande上表现最佳的现有方法达到了59.4%-79.1%的准确率,比人类表现(94.0%)低15-35%,具体取决于允许使用的训练数据量。此外,我们在五个相关基准测试中建立了新的最先进结果——WSC(90.1%)、DPR(93.1%)、COPA(90.6%)、KnowRef(85.6%)和Winogender(97.1%)。这些结果具有双重意义:一方面,它们展示了当WinoGrande作为迁移学习资源时的有效性;另一方面,它们引发了担忧,即我们可能在所有这些基准测试中都高估了机器常识的真实能力。我们强调,在现有的和未来的基准测试中进行算法偏差减少的重要性,以减轻这种高估现象。

基准测试

基准方法指标
common-sense-reasoning-on-winograndeBERT-large 345M (0-shot)
Accuracy: 51.9
common-sense-reasoning-on-winograndeRoBERTa-large 355M (0-shot)
Accuracy: 50
common-sense-reasoning-on-winograndeBERT-Winogrande 345M (fine-tuned)
Accuracy: 64.9
common-sense-reasoning-on-winograndeRoBERTa-Winogrande 355M (fine-tuned)
Accuracy: 79.1
common-sense-reasoning-on-winograndeBERT-DPR 345M (0-shot)
Accuracy: 51
common-sense-reasoning-on-winograndeRoBERTa-DPR 355M (0-shot)
Accuracy: 58.9
coreference-resolution-on-winograd-schemaWKH
Accuracy: 57.1
coreference-resolution-on-winograd-schemaRoBERTa-WinoGrande 355M
Accuracy: 90.1
coreference-resolution-on-winograd-schemaKEE+NKAM on WinoGrande
Accuracy: 52.8
coreference-resolution-on-winograd-schemaRoBERTa-DPR 355M
Accuracy: 83.1
question-answering-on-copaRoBERTa-Winogrande-ft 355M (fine-tuned)
Accuracy: 90.6
question-answering-on-copaRoBERTa-ft 355M (fine-tuned)
Accuracy: 86.4
question-answering-on-copaCausal Strength w/multi-word predicates (presumably on WinoGrande?)
Accuracy: 76.4
question-answering-on-copaPointwise Mutual Information (on 10M stories)
Accuracy: 65.4
question-answering-on-copaRoBERTa-Winogrande 355M (fine-tuned)
Accuracy: 84.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WinoGrande:大规模的对抗性温格拉德模式挑战 | 论文 | HyperAI超神经