4 个月前

UnifiedQA:用单一问答系统跨越格式边界

UnifiedQA:用单一问答系统跨越格式边界

摘要

问答(QA)任务采用了多种格式,如抽取式片段选择、多项选择等。这导致了针对特定格式的模型的出现,甚至在问答社区内部形成了隐性的划分。我们认为,这些界限是人为设定的,或许没有必要存在,因为我们要教授的推理能力并不受格式的限制。作为证据,我们利用最新的语言模型进展构建了一个单一的预训练问答模型——UnifiedQA,该模型在涵盖4种不同格式的17个问答数据集上表现出了令人惊讶的效果。UnifiedQA的表现与9个分别在单个数据集上训练的不同模型相当。即使面对12个未见过但属于已知格式的数据集时,UnifiedQA仍然表现出色,显示出其从非标准格式训练数据中具有强大的泛化能力。最后,仅需对这个预训练的问答模型进行微调以生成专门化的模型,便能在6个数据集上达到新的最先进水平,从而确立了UnifiedQA作为构建问答系统的一个强大起点的地位。

代码仓库

allenai/unifiedqa
官方
pytorch
GitHub 中提及
facebookresearch/metaicl
pytorch
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-commonsenseqaUnifiedQA 11B (fine-tuned)
Accuracy: 79.1
common-sense-reasoning-on-commonsenseqaUnifiedQA 440M (fine-tuned)
Accuracy: 64
common-sense-reasoning-on-commonsenseqaT5-XXL 11B (fine-tuned)
Accuracy: 78.1
common-sense-reasoning-on-commonsenseqaUnifiedQA 11B (zero-shot)
Accuracy: 76.2
common-sense-reasoning-on-commonsenseqaBART-large 440M (fine-tuned)
Accuracy: 62.5
common-sense-reasoning-on-winograndeUnified QA 406M (fine-tuned)
Accuracy: 73.3
common-sense-reasoning-on-winograndeUnifiedQA 11B (fine-tuned)
Accuracy: 89.4
multi-task-language-understanding-on-mmluGPT 3
Average (%): 48.9
question-answering-on-openbookqaUnifiedQA 11B
Accuracy: 87.2
question-answering-on-piqaUnifiedQA 3B
Accuracy: 85.3
question-answering-on-social-iqaUnifiedQA 3B
Accuracy: 79.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UnifiedQA:用单一问答系统跨越格式边界 | 论文 | HyperAI超神经