
摘要
大规模预训练视觉-语言模型(Vision-Language Models, VLMs)已成为跨多种任务进行迁移学习的关键技术。然而,在仅有限的少样本数据下对这些模型进行微调时,常常导致过拟合,从而削弱其在新任务上的表现。为解决这一问题,我们提出了一种新型的多模态表示学习框架(Multi-Modal Representation Learning, MMRL),该框架引入了一个共享的、可学习的、且与模态无关的表示空间。MMRL将空间令牌(space tokens)映射至文本与图像的表示令牌,从而促进更高效的多模态交互。与以往仅优化类别令牌(class token)特征的方法不同,MMRL在编码器的高层引入了表示令牌(representation tokens),这些高层特征更突出数据集特异性,同时在低层保留了通用知识。在训练过程中,表示令牌与类别特征均被优化,并通过可训练的投影层作用于表示令牌,而类别令牌的投影层则保持冻结,以保留预训练阶段所获得的知识。此外,引入了一项正则化项,用于将类别特征与文本特征对齐至冻结VLM的零样本(zero-shot)特征,从而有效保护模型的泛化能力。在推理阶段,采用解耦策略:对于基础类别(base classes),同时利用表示特征与类别特征;而对于新类别(novel tasks),仅使用保留更强泛化能力的类别特征。在15个不同数据集上的大量实验表明,MMRL显著优于当前最先进的方法,在任务特定适应性与泛化能力之间实现了更优的平衡。相关代码已开源,地址为:https://github.com/yunncheng/MMRL。
代码仓库
yunncheng/MMRL
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| prompt-engineering-on-caltech-101 | MMRL | Harmonic mean: 96.68 |
| prompt-engineering-on-dtd | MMRL | Harmonic mean: 73.82 |
| prompt-engineering-on-eurosat | MMRL | Harmonic mean: 87.21 |
| prompt-engineering-on-fgvc-aircraft | MMRL | Harmonic mean: 41.15 |
| prompt-engineering-on-food-101 | MMRL | Harmonic mean: 91.03 |
| prompt-engineering-on-imagenet | MMRL | Harmonic mean: 74.45 |
| prompt-engineering-on-imagenet-a | MMRL | Top-1 accuracy %: 51.20 |
| prompt-engineering-on-imagenet-r | MMRL | Top-1 accuracy %: 77.53 |
| prompt-engineering-on-imagenet-s | MMRL | Top-1 accuracy %: 49.17 |
| prompt-engineering-on-imagenet-v2 | MMRL | Top-1 accuracy %: 64.47 |
| prompt-engineering-on-oxford-102-flower | MMRL | Harmonic mean: 86.78 |
| prompt-engineering-on-oxford-iiit-pet-dataset | MMRL | Harmonic mean: 96.74 |
| prompt-engineering-on-stanford-cars-1 | MMRL | Harmonic mean: 78.06 |
| prompt-engineering-on-sun397 | MMRL | Harmonic mean: 81.20 |
| prompt-engineering-on-ucf101 | MMRL | Harmonic mean: 83.89 |