3 个月前

用于低数据迁移学习的深度集成方法

用于低数据迁移学习的深度集成方法

摘要

在数据量有限的场景下,从零开始训练性能良好的监督模型极为困难。因此,实践者通常转而采用预训练模型,借助迁移学习来提升性能。集成学习(Ensembling)在理论和实证上均展现出构建强大预测模型的潜力,但目前主流方法——通过不同的随机初始化训练多个深度网络——与依赖预训练权重进行迁移学习的需求存在冲突。本文研究了如何基于预训练模型构建有效的集成模型。我们发现,预训练过程本身即可成为实现模型多样性的高效来源,并提出了一种实用算法,能够高效地为任意下游数据集筛选出一组最优的预训练模型。该方法简洁明了:首先利用最近邻分类准确率对预训练模型进行排序,随后对排名靠前的模型进行少量超参数调优,最后通过贪心策略构建集成模型以最小化验证集上的交叉熵损失。在19个不同的下游任务(基于视觉任务适应基准,Visual Task Adaptation Benchmark)上与多种强基线方法对比评估,该方法在显著更低的推理开销下实现了当前最优性能,即使在从超过2000个预训练模型中进行筛选的情况下依然表现优异。此外,我们在ImageNet的多种变体数据集上进一步评估了所提集成模型,结果表明其在面对分布偏移(distribution shift)时具有更强的鲁棒性。

基准测试

基准方法指标
image-classification-on-vtab-1k-1ExpertEnsembles R101
Top-1 Accuracy: 77.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于低数据迁移学习的深度集成方法 | 论文 | HyperAI超神经