4 个月前

SocialIQA:关于社会互动的常识推理

SocialIQA:关于社会互动的常识推理

摘要

我们介绍了Social IQa,这是首个用于评估社交情境中常识推理能力的大规模基准测试。Social IQa 包含了 38,000 道多项选择题,旨在探测在各种日常情境中的情感和社交智能(例如,问题:“乔丹想告诉特蕾西一个秘密,所以乔丹向特蕾西靠过去。乔丹为什么这样做?” 答案:“确保其他人听不到”)。通过众包方式,我们收集了关于社交互动的常识问题及其正确和错误答案,并使用了一种新的框架来减少错误答案中的风格性缺陷,该框架要求工作人员为不同的但相关的问题提供正确答案。实证结果表明,与人类的表现相比(超过 20% 的差距),现有的基于预训练语言模型的问答模型在我们的基准测试中面临挑战。值得注意的是,我们进一步将 Social IQa 建立为常识知识迁移学习的资源,在多个常识推理任务(如 Winograd 模式、COPA)上取得了最先进的性能。

代码仓库

基准测试

基准方法指标
coreference-resolution-on-winograd-schemaBERT-large 340M
Accuracy: 67
coreference-resolution-on-winograd-schemaBERT-SocialIQA 340M
Accuracy: 72.5
question-answering-on-copaBERT-large 340M
Accuracy: 80.8
question-answering-on-copaBERT-SocialIQA 340M
Accuracy: 83.4
question-answering-on-social-iqaRandom chance baseline
Accuracy: 33.3
question-answering-on-social-iqaBERT-base 110M (fine-tuned)
Accuracy: 63.1
question-answering-on-social-iqaBERT-large 340M (fine-tuned)
Accuracy: 64.5
question-answering-on-social-iqaGPT-1 117M (fine-tuned)
Accuracy: 63

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SocialIQA:关于社会互动的常识推理 | 论文 | HyperAI超神经