Neel AlexEli LiflandLewis TunstallAbhishek ThakurPegah MahamC. Jess RiedelEmmie HineCarolyn AshurstPaul SedilleAlexis CarlierMichael NoetelAndreas Stuhlmüller

摘要
大规模预训练语言模型在少样本学习(few-shot learning)方面展现出巨大潜力,能够仅凭少量任务相关示例完成文本类任务。那么,这些模型是否很快就能胜任以往仅由人类研究助理完成的分类任务?现有的评估基准并未针对实际应用环境设计,因此无法直接回答这一问题。为此,研究者提出了RAFT基准(Real-world Annotated Few-shot Tasks),该基准聚焦于自然发生的任务,并采用与实际部署场景相一致的评估方式。对RAFT的基线评估揭示了当前技术仍面临挑战的领域:长文本推理以及类别数量较多的任务。人类基线测试表明,部分分类任务对非专业人员而言也具有相当难度,反映出现实世界中的任务价值往往依赖于特定领域的专业知识。然而,即便是在非专业人类的基线表现中,其F1得分仍平均比GPT-3高出0.11。RAFT数据集及排行榜将持续追踪模型改进在真实应用场景中所带来的实际效益,相关资源可访问 https://raft.elicit.org 获取。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-text-classification-on-raft | GPT-3 zero-shot | Over: 0.378 ADE: 0.163 Avg: 0.292 B77: 0.000 NIS: 0.572 OSE: 0.323 SOT: 0.628 SRI: 0.027 TAI: 0.362 TC: 0.290 TEH: 0.303 ToS: 0.164 |
| few-shot-text-classification-on-raft | Plurality-class | Over: 0.337 ADE: 0.446 Avg: 0.331 B77: 0.000 NIS: 0.353 OSE: 0.164 SOT: 0.271 SRI: 0.493 TAI: 0.344 TC: 0.391 TEH: 0.366 ToS: 0.471 |
| few-shot-text-classification-on-raft | GPT-2 | Over: 0.498 ADE: 0.600 Avg: 0.458 B77: 0.121 NIS: 0.561 OSE: 0.245 SOT: 0.380 SRI: 0.492 TAI: 0.612 TC: 0.723 TEH: 0.311 ToS: 0.498 |
| few-shot-text-classification-on-raft | AdaBoost | Over: 0.838 ADE: 0.543 Avg: 0.514 B77: 0.023 NIS: 0.626 OSE: 0.475 SOT: 0.455 SRI: 0.506 TAI: 0.556 TC: 0.625 TEH: 0.443 ToS: 0.560 |
| few-shot-text-classification-on-raft | BART MNLI zero-shot | Over: 0.462 ADE: 0.234 Avg: 0.382 B77: 0.332 NIS: 0.615 OSE: 0.360 SOT: 0.644 SRI: 0.026 TAI: 0.469 TC: 0.400 TEH: 0.543 ToS: 0.122 |
| few-shot-text-classification-on-raft | GPT-3 | Over: 0.937 ADE: 0.686 Avg: 0.627 B77: 0.299 NIS: 0.679 OSE: 0.431 SOT: 0.769 SRI: 0.516 TAI: 0.656 TC: 0.821 TEH: 0.526 ToS: 0.574 |
| few-shot-text-classification-on-raft | GPT-Neo | Over: 0.681 ADE: 0.452 Avg: 0.481 B77: 0.149 NIS: 0.408 OSE: 0.343 SOT: 0.406 SRI: 0.493 TAI: 0.605 TC: 0.636 TEH: 0.554 ToS: 0.565 |
| few-shot-text-classification-on-raft | Human (crowdsourced) | Over: 0.917 ADE: 0.830 Avg: 0.735 B77: 0.607 NIS: 0.857 OSE: 0.646 SOT: 0.908 SRI: 0.468 TAI: 0.609 TC: 0.897 TEH: 0.722 ToS: 0.627 |