3 个月前

对比学习在通过特征蒸馏进行微调时挑战掩码图像建模

对比学习在通过特征蒸馏进行微调时挑战掩码图像建模

摘要

掩码图像建模(Masked Image Modeling, MIM)在微调性能方面展现出卓越的表现,显著超越了以往主流的预训练方法,如图像分类、实例对比学习以及图像-文本对齐等。本文表明,通过一种简单的后处理方法——特征蒸馏(Feature Distillation, FD),可以显著提升这些传统预训练方法在微调任务中的表现。特征蒸馏将原有的特征表示转换为具有若干理想特性的新表示,这些特性与MIM所生成的表示相似。我们统称这些特性为“优化友好性”(optimization friendliness),并通过一系列基于注意力机制和优化行为的诊断工具对其进行识别与分析。得益于这些优化友好特性,新生成的表示在微调任务中表现出强劲的性能。具体而言,经过特征蒸馏处理后,对比自监督学习方法在微调性能上达到了与当前最先进的MIM算法相当的水平。同时,CLIP模型的微调性能也得到显著提升,其中CLIP ViT-L模型在ImageNet-1K图像分类任务上达到了89.0%的Top-1准确率。在参数量达30亿的SwinV2-G模型上,特征蒸馏使微调性能分别提升了+1.5 mIoU和+1.1 mAP,分别在ADE20K语义分割和COCO目标检测任务上达到61.4 mIoU和64.2 mAP,刷新了两项基准测试的最新纪录。更重要的是,本研究为未来的研究指明了新方向:研究人员可将更多精力聚焦于所学表示的泛化能力与可扩展性,而无需过度关注优化友好性这一问题,因为该特性可通过特征蒸馏这一相对简单的方式有效增强。相关代码将开源,发布于:https://github.com/SwinTransformer/Feature-Distillation。

代码仓库

SwinTransformer/Feature-Distillation
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetFD (CLIP ViT-L-336)
Number of params: 307M
Top 1 Accuracy: 89.0%
instance-segmentation-on-cocoFD-SwinV2-G
mask AP: 55.4
object-detection-on-cocoFD-SwinV2-G
box mAP: 64.2
semantic-segmentation-on-ade20kFD-SwinV2-G
Params (M): 3000
Validation mIoU: 61.4
semantic-segmentation-on-ade20k-valFD-SwinV2-G
mIoU: 61.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供