6 个月前

摘要

多任务学习（Multi-Task Learning, MTL）网络已成为在不同任务间迁移所学知识的一种有前景的方法。然而，MTL面临诸多挑战，包括对低资源任务的过拟合、灾难性遗忘以及负面任务迁移或学习干扰等问题。在自然语言处理（Natural Language Processing, NLP）领域，通常需要为每个任务单独训练一个模型才能获得最佳性能。然而，许多微调方法在参数利用上效率低下，即可能需要为每个任务引入一个全新的模型，且极易在微调过程中丢失预训练阶段所获得的知识。为此，我们提出了一种新型的Transformer架构，其核心包括一种新型的条件注意力机制以及一组任务相关的模块，从而促进参数共享。通过这一结构设计（即超网络适配器，hypernetwork adapter），我们实现了更高效的参数共享，并通过固定预训练模型一半的权重，有效缓解了知识遗忘问题。此外，我们引入了一种新的多任务数据采样策略，以减轻任务间数据分布不均带来的负面影响。采用该方法，我们在保持参数与数据高效性的同时（仅使用约66%的数据进行权重更新），超越了单一任务微调方法的性能表现。在GLUE基准测试中，相较于其他BERT Large模型，我们的8任务模型比其他适配器方法高出2.8%，24任务模型则在性能上优于采用MTL或单一任务微调的模型0.7%至1.0%。我们进一步验证了该方法的可扩展性：一个更大规模的单个多任务模型在26个NLP任务上均表现出色，并在多个测试集和开发集上取得了当前最优（state-of-the-art）结果。相关代码已公开发布于：https://github.com/CAMTL/CA-MTL。

源 PDF 查看代码