
摘要
掩码图像建模(Masked Image Modeling, MIM)在微调性能方面展现出卓越的表现,显著超越了以往主流的预训练方法,如图像分类、实例对比学习以及图像-文本对齐等。本文表明,通过一种简单的后处理方法——特征蒸馏(Feature Distillation, FD),可以显著提升这些传统预训练方法在微调任务中的表现。特征蒸馏将原有的特征表示转换为具有若干理想特性的新表示,这些特性与MIM所生成的表示相似。我们统称这些特性为“优化友好性”(optimization friendliness),并通过一系列基于注意力机制和优化行为的诊断工具对其进行识别与分析。得益于这些优化友好特性,新生成的表示在微调任务中表现出强劲的性能。具体而言,经过特征蒸馏处理后,对比自监督学习方法在微调性能上达到了与当前最先进的MIM算法相当的水平。同时,CLIP模型的微调性能也得到显著提升,其中CLIP ViT-L模型在ImageNet-1K图像分类任务上达到了89.0%的Top-1准确率。在参数量达30亿的SwinV2-G模型上,特征蒸馏使微调性能分别提升了+1.5 mIoU和+1.1 mAP,分别在ADE20K语义分割和COCO目标检测任务上达到61.4 mIoU和64.2 mAP,刷新了两项基准测试的最新纪录。更重要的是,本研究为未来的研究指明了新方向:研究人员可将更多精力聚焦于所学表示的泛化能力与可扩展性,而无需过度关注优化友好性这一问题,因为该特性可通过特征蒸馏这一相对简单的方式有效增强。相关代码将开源,发布于:https://github.com/SwinTransformer/Feature-Distillation。
代码仓库
SwinTransformer/Feature-Distillation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | FD (CLIP ViT-L-336) | Number of params: 307M Top 1 Accuracy: 89.0% |
| instance-segmentation-on-coco | FD-SwinV2-G | mask AP: 55.4 |
| object-detection-on-coco | FD-SwinV2-G | box mAP: 64.2 |
| semantic-segmentation-on-ade20k | FD-SwinV2-G | Params (M): 3000 Validation mIoU: 61.4 |
| semantic-segmentation-on-ade20k-val | FD-SwinV2-G | mIoU: 61.4 |