
摘要
在自监督学习中,多粒度特征虽极具需求却鲜少被深入研究,因为不同的下游任务(如通用分类与细粒度分类)通常需要不同粒度或多种粒度的特征,例如细粒度、粗粒度特征,或其组合。本文首次提出一种高效且具有创新性的多粒度自监督学习框架——Mugs(Multi-Granular Self-supervised learning),旨在显式地学习多粒度视觉特征。Mugs包含三种互补的粒度监督机制:1)实例判别监督(Instance Discrimination Supervision, IDS),2)一种新颖的局部组判别监督(Local-Group Discrimination Supervision, LGDS),以及3)组判别监督(Group Discrimination Supervision, GDS)。IDS通过区分不同实例来学习实例级别的细粒度特征。LGDS将图像及其邻域特征聚合为一个局部组特征,使同一图像不同裁剪区域生成的局部组特征相互拉近,同时与其它图像的局部组特征相互推开。该机制通过在局部邻域上引入额外对齐,为IDS提供了补充性的实例级监督,同时将不同局部组特征分散开来,从而增强特征的可区分性,有助于在局部组层面学习高层细粒度特征。最后,为防止相似的局部组被随机或过度分散,GDS通过将相似样本拉近,使相似的局部组聚集在一起,从而在语义组层面捕捉粗粒度特征。综上所述,Mugs能够同时学习三种不同粒度的特征,这些特征在多种下游任务中通常比单一粒度特征具有更强的泛化能力,例如在对比学习中仅学习实例级细粒度特征。仅在ImageNet-1K上进行预训练,Mugs即在ImageNet-1K线性探测任务上取得了82.1%的新SOTA准确率,相较此前最优方法提升1.1%。此外,Mugs在其他多项任务上也超越了现有最优性能,包括迁移学习、目标检测与图像分割等。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| self-supervised-image-classification-on | Mugs (VIT-L/16) | Number of Params: 307M Top 1 Accuracy: 82.1% |
| self-supervised-image-classification-on-1 | Mugs (ViT-S/16) | Number of Params: 21M Top 1 Accuracy: 82.6% |
| self-supervised-image-classification-on-1 | Mugs (ViT-B/16) | Number of Params: 85M Top 1 Accuracy: 84.3% |
| self-supervised-image-classification-on-1 | Mugs (ViT-L/16) | Number of Params: 307M Top 1 Accuracy: 85.2% |