
摘要
我们介绍了Social IQa,这是首个用于评估社交情境中常识推理能力的大规模基准测试。Social IQa 包含了 38,000 道多项选择题,旨在探测在各种日常情境中的情感和社交智能(例如,问题:“乔丹想告诉特蕾西一个秘密,所以乔丹向特蕾西靠过去。乔丹为什么这样做?” 答案:“确保其他人听不到”)。通过众包方式,我们收集了关于社交互动的常识问题及其正确和错误答案,并使用了一种新的框架来减少错误答案中的风格性缺陷,该框架要求工作人员为不同的但相关的问题提供正确答案。实证结果表明,与人类的表现相比(超过 20% 的差距),现有的基于预训练语言模型的问答模型在我们的基准测试中面临挑战。值得注意的是,我们进一步将 Social IQa 建立为常识知识迁移学习的资源,在多个常识推理任务(如 Winograd 模式、COPA)上取得了最先进的性能。
代码仓库
clear-nus/llm-human-model
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| coreference-resolution-on-winograd-schema | BERT-large 340M | Accuracy: 67 |
| coreference-resolution-on-winograd-schema | BERT-SocialIQA 340M | Accuracy: 72.5 |
| question-answering-on-copa | BERT-large 340M | Accuracy: 80.8 |
| question-answering-on-copa | BERT-SocialIQA 340M | Accuracy: 83.4 |
| question-answering-on-social-iqa | Random chance baseline | Accuracy: 33.3 |
| question-answering-on-social-iqa | BERT-base 110M (fine-tuned) | Accuracy: 63.1 |
| question-answering-on-social-iqa | BERT-large 340M (fine-tuned) | Accuracy: 64.5 |
| question-answering-on-social-iqa | GPT-1 117M (fine-tuned) | Accuracy: 63 |