4 个月前

SWAG:一个大规模的对抗性数据集用于基于事实的常识推理

SWAG:一个大规模的对抗性数据集用于基于事实的常识推理

摘要

给定一个部分描述,如“她打开了汽车的引擎盖”,人类可以对这一情境进行推理并预测接下来可能发生的情况(“然后,她检查了发动机”)。在本文中,我们引入了基于情境的常识推理任务,将自然语言推理和常识推理统一起来。我们介绍了SWAG数据集,该数据集包含11.3万个关于丰富情境背景的多项选择题。为了解决许多现有数据集中常见的注释伪影和人类偏见问题,我们提出了一种新的方法——对抗过滤(Adversarial Filtering, AF),通过迭代训练一组风格分类器并使用它们来过滤数据,构建了一个无偏的数据集。为了应对激烈的对抗过滤,我们利用最先进的语言模型大规模生成了一组多样的潜在反事实情况。实证结果表明,虽然人类能够以高准确率(88%)解决这些推理问题,但各种竞争模型在我们的任务上表现不佳。我们提供了全面的分析,指出未来研究存在显著的机会。

基准测试

基准方法指标
common-sense-reasoning-on-swagESIM + GloVe
Dev: 51.9
Test: 52.7
common-sense-reasoning-on-swagESIM + ELMo
Dev: 59.1
Test: 59.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SWAG:一个大规模的对抗性数据集用于基于事实的常识推理 | 论文 | HyperAI超神经