6 个月前

摘要

在数据量有限的场景下，从零开始训练性能良好的监督模型极为困难。因此，实践者通常转而采用预训练模型，借助迁移学习来提升性能。集成学习（Ensembling）在理论和实证上均展现出构建强大预测模型的潜力，但目前主流方法——通过不同的随机初始化训练多个深度网络——与依赖预训练权重进行迁移学习的需求存在冲突。本文研究了如何基于预训练模型构建有效的集成模型。我们发现，预训练过程本身即可成为实现模型多样性的高效来源，并提出了一种实用算法，能够高效地为任意下游数据集筛选出一组最优的预训练模型。该方法简洁明了：首先利用最近邻分类准确率对预训练模型进行排序，随后对排名靠前的模型进行少量超参数调优，最后通过贪心策略构建集成模型以最小化验证集上的交叉熵损失。在19个不同的下游任务（基于视觉任务适应基准，Visual Task Adaptation Benchmark）上与多种强基线方法对比评估，该方法在显著更低的推理开销下实现了当前最优性能，即使在从超过2000个预训练模型中进行筛选的情况下依然表现优异。此外，我们在ImageNet的多种变体数据集上进一步评估了所提集成模型，结果表明其在面对分布偏移（distribution shift）时具有更强的鲁棒性。

源 PDF