
摘要
持续学习(Continual Learning, CL)旨在以增量方式依次学习一系列任务,其核心目标是实现两个关键目标:克服灾难性遗忘(Catastrophic Forgetting, CF),并促进任务间的知识迁移(Knowledge Transfer, KT)。然而,现有大多数方法仅关注缓解灾难性遗忘,缺乏有效机制来主动促进知识迁移,因此在知识迁移方面表现不佳。尽管已有部分研究尝试同时应对CF与KT,但我们的实验表明,当任务间共享知识较少时,这些方法仍会面临严重的灾难性遗忘问题。此外,一个值得关注的现象是,当前多数CL方法并未利用预训练模型。然而已有研究表明,预训练模型能够显著提升最终任务的性能。例如,在自然语言处理领域,微调类似BERT的预训练语言模型已被证明是极为高效的方法之一。然而,将此类预训练模型直接应用于持续学习时,往往会导致严重的灾难性遗忘。由此引出一个关键问题:如何在持续学习中充分发挥预训练模型的优势?为此,本文提出了一种新颖的模型——CTR(Continual Transfer Representation),以有效解决上述挑战。实验结果充分验证了CTR模型在缓解灾难性遗忘与促进知识迁移方面的有效性。
代码仓库
zixuanke/pycontinual
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| continual-learning-on-20newsgroup-10-tasks | CTR | F1 - macro: 0.9523 |
| continual-learning-on-asc-19-tasks | CTR | F1 - macro: 0.8362 |
| continual-learning-on-asc-19-tasks | Naive Continual Learning (NCL) | F1 - macro: 0.7664 |
| continual-learning-on-asc-19-tasks | Multi-task Learning (MTL; Upper Bound) | F1 - macro: 0.8811 |
| continual-learning-on-asc-19-tasks | Independent Learning (ONE) | F1 - macro: 0.7807 |
| continual-learning-on-dsc-10-tasks | CTR | F1 - macro: 0.8875 |