
摘要
我们提出了一种将多选题问答(MCQA)任务重构为一系列二分类问题的简单方法。通常情况下,MCQA任务通过计算每个(问题,答案)对的得分并将其归一化到所有对上,然后从得分最高的对中选择答案来完成。对于n个选项,这相当于一个只有一个是正确类别的n分类设置。相反,我们将(问题,正确答案)对分类为正例,而将(问题,错误答案)对分类为负例,并证明了这种方法在各种模型和数据集上显著更加有效。我们在不同的任务中验证了所提方法的有效性——包括溯因推理、常识问答、科学问答和句子完形填空。我们的DeBERTa二分类模型在这几项任务的公开排行榜上达到了顶级或接近顶级的表现。所提出的这种方法的源代码可在https://github.com/declare-lab/TEAM 获取。
代码仓库
declare-lab/team
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-piqa | DeBERTa-Large 304M (classification-based) | Accuracy: 85.9 |
| question-answering-on-piqa | DeBERTa-Large 304M | Accuracy: 87.4 |
| question-answering-on-social-iqa | DeBERTa-Large 304M | Accuracy: 80.2 |
| question-answering-on-social-iqa | DeBERTa-Large 304M (classification-based) | Accuracy: 79.9 |