6 个月前

监督式微调

自然语言处理

自然语言处理

Mitchell Wortsman Gabriel Ilharco Samir Yitzhak Gadre Rebecca Roelofs Raphael Gontijo-Lopes Ari S. Morcos Hongseok Namkoong Ali Farhadi Yair Carmon Simon Kornblith

摘要

传统的提升模型准确率的方法通常包括两个步骤：（1）使用不同的超参数训练多个模型；（2）从这些模型中选择在预留验证集上表现最佳的单一模型，其余模型则被丢弃。本文在微调大型预训练模型的背景下重新审视了这一流程的第二步。在该场景中，微调后的模型往往聚集于单一低误差区域。我们发现，对采用不同超参数配置微调得到的多个模型的权重进行平均，通常能够显著提升模型的准确率与鲁棒性。与传统集成方法不同，我们可以在不增加推理开销或内存消耗的前提下，对大量模型进行平均——我们将这一方法所得结果称为“模型汤”（model soups）。在微调诸如CLIP、ALIGN以及在JFT数据集上预训练的ViT-G等大型预训练模型时，我们的“模型汤”方法在ImageNet上的表现显著优于超参数搜索中选出的最佳单个模型。由此获得的ViT-G模型在ImageNet上实现了90.94%的Top-1准确率，创造了新的最先进水平。此外，我们进一步证明，该模型汤方法可推广至多种图像分类与自然语言处理任务，能够提升模型在分布外数据上的表现，并增强其在新下游任务上的零样本性能。最后，我们从理论上分析了权重平均与logit集成性能相似性的根源，发现其与损失函数的平坦性以及预测置信度密切相关，并通过实验证实了这一理论关系。相关代码已开源，地址为：https://github.com/mlfoundations/model-soups。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

自然语言处理

自然语言处理

Mitchell Wortsman Gabriel Ilharco Samir Yitzhak Gadre Rebecca Roelofs Raphael Gontijo-Lopes Ari S. Morcos Hongseok Namkoong Ali Farhadi Yair Carmon Simon Kornblith

摘要

传统的提升模型准确率的方法通常包括两个步骤：（1）使用不同的超参数训练多个模型；（2）从这些模型中选择在预留验证集上表现最佳的单一模型，其余模型则被丢弃。本文在微调大型预训练模型的背景下重新审视了这一流程的第二步。在该场景中，微调后的模型往往聚集于单一低误差区域。我们发现，对采用不同超参数配置微调得到的多个模型的权重进行平均，通常能够显著提升模型的准确率与鲁棒性。与传统集成方法不同，我们可以在不增加推理开销或内存消耗的前提下，对大量模型进行平均——我们将这一方法所得结果称为“模型汤”（model soups）。在微调诸如CLIP、ALIGN以及在JFT数据集上预训练的ViT-G等大型预训练模型时，我们的“模型汤”方法在ImageNet上的表现显著优于超参数搜索中选出的最佳单个模型。由此获得的ViT-G模型在ImageNet上实现了90.94%的Top-1准确率，创造了新的最先进水平。此外，我们进一步证明，该模型汤方法可推广至多种图像分类与自然语言处理任务，能够提升模型在分布外数据上的表现，并增强其在新下游任务上的零样本性能。最后，我们从理论上分析了权重平均与logit集成性能相似性的根源，发现其与损失函数的平坦性以及预测置信度密切相关，并通过实验证实了这一理论关系。相关代码已开源，地址为：https://github.com/mlfoundations/model-soups。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供