6 个月前

摘要

持续学习（Continual Learning, CL）旨在以增量方式依次学习一系列任务，其核心目标是实现两个关键目标：克服灾难性遗忘（Catastrophic Forgetting, CF），并促进任务间的知识迁移（Knowledge Transfer, KT）。然而，现有大多数方法仅关注缓解灾难性遗忘，缺乏有效机制来主动促进知识迁移，因此在知识迁移方面表现不佳。尽管已有部分研究尝试同时应对CF与KT，但我们的实验表明，当任务间共享知识较少时，这些方法仍会面临严重的灾难性遗忘问题。此外，一个值得关注的现象是，当前多数CL方法并未利用预训练模型。然而已有研究表明，预训练模型能够显著提升最终任务的性能。例如，在自然语言处理领域，微调类似BERT的预训练语言模型已被证明是极为高效的方法之一。然而，将此类预训练模型直接应用于持续学习时，往往会导致严重的灾难性遗忘。由此引出一个关键问题：如何在持续学习中充分发挥预训练模型的优势？为此，本文提出了一种新颖的模型——CTR（Continual Transfer Representation），以有效解决上述挑战。实验结果充分验证了CTR模型在缓解灾难性遗忘与促进知识迁移方面的有效性。

源 PDF