3 个月前

RAFT:一个真实世界少样本文本分类基准

RAFT:一个真实世界少样本文本分类基准

摘要

大规模预训练语言模型在少样本学习(few-shot learning)方面展现出巨大潜力,能够仅凭少量任务相关示例完成文本类任务。那么,这些模型是否很快就能胜任以往仅由人类研究助理完成的分类任务?现有的评估基准并未针对实际应用环境设计,因此无法直接回答这一问题。为此,研究者提出了RAFT基准(Real-world Annotated Few-shot Tasks),该基准聚焦于自然发生的任务,并采用与实际部署场景相一致的评估方式。对RAFT的基线评估揭示了当前技术仍面临挑战的领域:长文本推理以及类别数量较多的任务。人类基线测试表明,部分分类任务对非专业人员而言也具有相当难度,反映出现实世界中的任务价值往往依赖于特定领域的专业知识。然而,即便是在非专业人类的基线表现中,其F1得分仍平均比GPT-3高出0.11。RAFT数据集及排行榜将持续追踪模型改进在真实应用场景中所带来的实际效益,相关资源可访问 https://raft.elicit.org 获取。

代码仓库

基准测试

基准方法指标
few-shot-text-classification-on-raftGPT-3 zero-shot
Over: 0.378
ADE: 0.163
Avg: 0.292
B77: 0.000
NIS: 0.572
OSE: 0.323
SOT: 0.628
SRI: 0.027
TAI: 0.362
TC: 0.290
TEH: 0.303
ToS: 0.164
few-shot-text-classification-on-raftPlurality-class
Over: 0.337
ADE: 0.446
Avg: 0.331
B77: 0.000
NIS: 0.353
OSE: 0.164
SOT: 0.271
SRI: 0.493
TAI: 0.344
TC: 0.391
TEH: 0.366
ToS: 0.471
few-shot-text-classification-on-raftGPT-2
Over: 0.498
ADE: 0.600
Avg: 0.458
B77: 0.121
NIS: 0.561
OSE: 0.245
SOT: 0.380
SRI: 0.492
TAI: 0.612
TC: 0.723
TEH: 0.311
ToS: 0.498
few-shot-text-classification-on-raftAdaBoost
Over: 0.838
ADE: 0.543
Avg: 0.514
B77: 0.023
NIS: 0.626
OSE: 0.475
SOT: 0.455
SRI: 0.506
TAI: 0.556
TC: 0.625
TEH: 0.443
ToS: 0.560
few-shot-text-classification-on-raftBART MNLI zero-shot
Over: 0.462
ADE: 0.234
Avg: 0.382
B77: 0.332
NIS: 0.615
OSE: 0.360
SOT: 0.644
SRI: 0.026
TAI: 0.469
TC: 0.400
TEH: 0.543
ToS: 0.122
few-shot-text-classification-on-raftGPT-3
Over: 0.937
ADE: 0.686
Avg: 0.627
B77: 0.299
NIS: 0.679
OSE: 0.431
SOT: 0.769
SRI: 0.516
TAI: 0.656
TC: 0.821
TEH: 0.526
ToS: 0.574
few-shot-text-classification-on-raftGPT-Neo
Over: 0.681
ADE: 0.452
Avg: 0.481
B77: 0.149
NIS: 0.408
OSE: 0.343
SOT: 0.406
SRI: 0.493
TAI: 0.605
TC: 0.636
TEH: 0.554
ToS: 0.565
few-shot-text-classification-on-raftHuman (crowdsourced)
Over: 0.917
ADE: 0.830
Avg: 0.735
B77: 0.607
NIS: 0.857
OSE: 0.646
SOT: 0.908
SRI: 0.468
TAI: 0.609
TC: 0.897
TEH: 0.722
ToS: 0.627

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RAFT:一个真实世界少样本文本分类基准 | 论文 | HyperAI超神经