3 个月前

条件自适应多任务学习:通过更少的参数与更少的数据提升NLP中的迁移学习

条件自适应多任务学习:通过更少的参数与更少的数据提升NLP中的迁移学习

摘要

多任务学习(Multi-Task Learning, MTL)网络已成为在不同任务间迁移所学知识的一种有前景的方法。然而,MTL面临诸多挑战,包括对低资源任务的过拟合、灾难性遗忘以及负面任务迁移或学习干扰等问题。在自然语言处理(Natural Language Processing, NLP)领域,通常需要为每个任务单独训练一个模型才能获得最佳性能。然而,许多微调方法在参数利用上效率低下,即可能需要为每个任务引入一个全新的模型,且极易在微调过程中丢失预训练阶段所获得的知识。为此,我们提出了一种新型的Transformer架构,其核心包括一种新型的条件注意力机制以及一组任务相关的模块,从而促进参数共享。通过这一结构设计(即超网络适配器,hypernetwork adapter),我们实现了更高效的参数共享,并通过固定预训练模型一半的权重,有效缓解了知识遗忘问题。此外,我们引入了一种新的多任务数据采样策略,以减轻任务间数据分布不均带来的负面影响。采用该方法,我们在保持参数与数据高效性的同时(仅使用约66%的数据进行权重更新),超越了单一任务微调方法的性能表现。在GLUE基准测试中,相较于其他BERT Large模型,我们的8任务模型比其他适配器方法高出2.8%,24任务模型则在性能上优于采用MTL或单一任务微调的模型0.7%至1.0%。我们进一步验证了该方法的可扩展性:一个更大规模的单个多任务模型在26个NLP任务上均表现出色,并在多个测试集和开发集上取得了当前最优(state-of-the-art)结果。相关代码已公开发布于:https://github.com/CAMTL/CA-MTL。

代码仓库

CAMTL/CA-MTL
官方
pytorch

基准测试

基准方法指标
natural-language-inference-on-scitailCA-MTL
Accuracy: 96.8
natural-language-inference-on-snliCA-MTL
% Test Accuracy: 92.1
% Train Accuracy: 92.6
Parameters: 340m

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
条件自适应多任务学习:通过更少的参数与更少的数据提升NLP中的迁移学习 | 论文 | HyperAI超神经