3 个月前

少样本参数高效微调优于且成本低于上下文学习

少样本参数高效微调优于且成本低于上下文学习

摘要

少样本上下文学习(Few-shot In-Context Learning, ICL)使预训练语言模型能够在无需基于梯度的微调的情况下,仅通过将少量示例作为输入,即可完成此前未见过的任务。然而,ICL在每次预测时都需要处理全部训练样本,因此带来了显著的计算、内存和存储开销。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)提供了一种替代范式,通过仅训练少量新增参数(如适配器模块、提示调优、稀疏更新方法等),即可使模型具备完成新任务的能力。在本文中,我们对少样本ICL与PEFT进行了严谨的对比分析,结果表明,PEFT不仅在准确率上表现更优,而且计算成本大幅降低。在此过程中,我们提出了一种新型PEFT方法——(IA)³,该方法通过可学习的向量对激活值进行缩放,在仅引入极少量新增参数的前提下,实现了更强的性能表现。此外,我们基于T0模型提出了一种简单实用的通用方法——T-Few,该方法无需针对特定任务进行调优或修改,即可直接应用于新任务。我们在RAFT基准测试中对T-Few进行了验证,首次在完全未见过的任务上实现了超越人类的表现,并相较当前最先进方法取得了6个百分点的绝对性能提升。本文所有实验所用代码均已公开。

代码仓库

r-three/t-few
官方
pytorch
GitHub 中提及
kohakublueleaf/lycoris
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-text-classification-on-raftT-Few
Over: 0.95
ADE: 0.804
Avg: 0.758
B77: 0.695
NIS: 0.833
OSE: 0.676
SOT: 0.915
SRI: 0.508
TAI: 0.736
TC: 0.879
TEH: 0.586
ToS: 0.75

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
少样本参数高效微调优于且成本低于上下文学习 | 论文 | HyperAI超神经