
摘要
尽管少样本学习领域已取得显著进展,但现有大多数少样本图像分类方法仍依赖于在大量基础类别样本上进行监督预训练,这限制了其在真实应用场景中的泛化能力。近年来,大规模视觉-语言预训练模型(Vision-Language Pre-trained Models, VLPs)在少样本学习中受到越来越多关注,因其能够利用网络上易于获取的文本信息,为可迁移的视觉表征学习提供一种新范式。然而,VLPs可能忽视那些难以用语言描述、但对区分不同图像至关重要的细节视觉信息。为解决上述问题,本文提出一种新框架——语义引导的视觉适配(Semantic-guided Visual Adapting, SgVA),该框架通过综合运用隐式知识蒸馏、面向视觉的对比损失以及跨模态对比损失,有效拓展视觉-语言预训练模型,生成具有判别性的适配视觉特征。其中,隐式知识蒸馏旨在将细粒度的跨模态知识传递至视觉适配器,以指导其更新。在13个数据集上的实验结果表明,所生成的适配视觉特征能够与跨模态特征良好互补,显著提升少样本图像分类性能。
代码仓库
FannierPeng/SgVA-CLIP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-mini-2 | SgVA-CLIP | Accuracy: 97.95 |
| few-shot-image-classification-on-mini-3 | SgVA-CLIP | Accuracy: 98.72 |