6 个月前

摘要

将预训练的深度神经网络（DNN）微调至目标数据集，也称为迁移学习，在计算机视觉和自然语言处理（NLP）领域被广泛应用。由于任务特定层主要包含类别信息，而不同数据集的类别存在差异，因此实践者通常仅部分迁移预训练模型：丢弃任务特定层，并对底层网络进行微调。然而，简单地丢弃占预训练模型总参数量高达20%的任务特定参数，是一种极为浪费的做法。为实现对预训练模型的完整迁移，我们提出了一种两步式框架，命名为Co-Tuning：（i）从预训练模型及其校准后的预测结果中学习源域类别与目标域类别之间的映射关系；（ii）在微调过程中，目标标签（独热编码标签）与通过类别关系转换得到的源标签（概率化标签）共同作为监督信号，协同指导模型优化。该框架的一个简单实现版本在四个视觉分类任务和一个NLP分类任务中均取得了显著的实证效果，相对性能提升最高可达20%。与当前最先进的微调技术主要关注数据稀缺场景下的正则化策略不同，Co-Tuning不仅在中等规模数据集（每类100个样本）上表现优异，也能在大规模数据集（每类1000个样本）上取得超越基础微调方法的性能，而后者在这些场景下正则化方法已不再带来增益。Co-Tuning依赖于一个通常成立的假设：预训练数据集具备足够的多样性，这表明其具有广泛的应用前景。

源 PDF 查看代码