
摘要
问答(QA)任务采用了多种格式,如抽取式片段选择、多项选择等。这导致了针对特定格式的模型的出现,甚至在问答社区内部形成了隐性的划分。我们认为,这些界限是人为设定的,或许没有必要存在,因为我们要教授的推理能力并不受格式的限制。作为证据,我们利用最新的语言模型进展构建了一个单一的预训练问答模型——UnifiedQA,该模型在涵盖4种不同格式的17个问答数据集上表现出了令人惊讶的效果。UnifiedQA的表现与9个分别在单个数据集上训练的不同模型相当。即使面对12个未见过但属于已知格式的数据集时,UnifiedQA仍然表现出色,显示出其从非标准格式训练数据中具有强大的泛化能力。最后,仅需对这个预训练的问答模型进行微调以生成专门化的模型,便能在6个数据集上达到新的最先进水平,从而确立了UnifiedQA作为构建问答系统的一个强大起点的地位。
代码仓库
allenai/unifiedqa
官方
pytorch
GitHub 中提及
facebookresearch/metaicl
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-commonsenseqa | UnifiedQA 11B (fine-tuned) | Accuracy: 79.1 |
| common-sense-reasoning-on-commonsenseqa | UnifiedQA 440M (fine-tuned) | Accuracy: 64 |
| common-sense-reasoning-on-commonsenseqa | T5-XXL 11B (fine-tuned) | Accuracy: 78.1 |
| common-sense-reasoning-on-commonsenseqa | UnifiedQA 11B (zero-shot) | Accuracy: 76.2 |
| common-sense-reasoning-on-commonsenseqa | BART-large 440M (fine-tuned) | Accuracy: 62.5 |
| common-sense-reasoning-on-winogrande | Unified QA 406M (fine-tuned) | Accuracy: 73.3 |
| common-sense-reasoning-on-winogrande | UnifiedQA 11B (fine-tuned) | Accuracy: 89.4 |
| multi-task-language-understanding-on-mmlu | GPT 3 | Average (%): 48.9 |
| question-answering-on-openbookqa | UnifiedQA 11B | Accuracy: 87.2 |
| question-answering-on-piqa | UnifiedQA 3B | Accuracy: 85.3 |
| question-answering-on-social-iqa | UnifiedQA 3B | Accuracy: 79.8 |