4 个月前

MIM-Refiner:从中间预训练表示中获得对比学习提升

MIM-Refiner:从中间预训练表示中获得对比学习提升

摘要

我们介绍了一种名为MIM(Masked Image Modeling)-Refiner的对比学习方法,用于提升预训练的MIM模型。MIM-Refiner的设计灵感来源于一个重要的观察,即在MIM模型中,强大的表示通常存在于中间层。因此,MIM-Refiner利用多个连接到不同中间层的对比头。在每个对比头中,通过修改后的最近邻目标构建语义聚类,这些聚类能够捕捉语义信息,从而提高下游任务的性能,包括即用型设置和微调设置。精炼过程简短且简单——但效果显著。经过几个epoch的训练,我们将MIM模型的特征从次优提升到了最先进的即用型特征水平。例如,使用data2vec 2.0在ImageNet-1K上预训练的ViT-H模型,在线性探测任务中达到了84.7%的新纪录,并在低样本分类任务中也创下了ImageNet-1K预训练模型的最佳成绩。MIM-Refiner高效地结合了MIM和ID目标的优势,在低样本分类、长尾分类、聚类和语义分割等多种基准测试中表现优于之前的自监督学习(SSL)模型。

代码仓库

ml-jku/MIM-Refiner
官方
pytorch
GitHub 中提及
BenediktAlkin/vtab1k-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
image-clustering-on-imagenetMIM-Refiner (D2V2-ViT-H/14)
ARI: 42.2
Accuracy: 67.3
NMI: 87.2
image-clustering-on-imagenetMIM-Refiner (MAE-ViT-H/14)
ARI: 45.5
Accuracy: 64.6
NMI: 85.3
self-supervised-image-classification-onMIM-Refiner (MAE-ViT-2B/14)
Number of Params: 1890M
Top 1 Accuracy: 84.5%
self-supervised-image-classification-onMIM-Refiner (MAE-ViT-H/14
Number of Params: 632M
Top 1 Accuracy: 83.7%
self-supervised-image-classification-onMIM-Refiner (MAE-ViT-L/16)
Number of Params: 307M
Top 1 Accuracy: 82.8%
self-supervised-image-classification-onMIM-Refiner (D2V2-ViT-H/14)
Number of Params: 632M
Top 1 Accuracy: 84.7%
self-supervised-image-classification-onMIM-Refiner (D2V2-ViT-L/16)
Number of Params: 307M
Top 1 Accuracy: 83.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供