3 个月前

MMRL:面向视觉-语言模型的多模态表示学习

MMRL:面向视觉-语言模型的多模态表示学习

摘要

大规模预训练视觉-语言模型(Vision-Language Models, VLMs)已成为跨多种任务进行迁移学习的关键技术。然而,在仅有限的少样本数据下对这些模型进行微调时,常常导致过拟合,从而削弱其在新任务上的表现。为解决这一问题,我们提出了一种新型的多模态表示学习框架(Multi-Modal Representation Learning, MMRL),该框架引入了一个共享的、可学习的、且与模态无关的表示空间。MMRL将空间令牌(space tokens)映射至文本与图像的表示令牌,从而促进更高效的多模态交互。与以往仅优化类别令牌(class token)特征的方法不同,MMRL在编码器的高层引入了表示令牌(representation tokens),这些高层特征更突出数据集特异性,同时在低层保留了通用知识。在训练过程中,表示令牌与类别特征均被优化,并通过可训练的投影层作用于表示令牌,而类别令牌的投影层则保持冻结,以保留预训练阶段所获得的知识。此外,引入了一项正则化项,用于将类别特征与文本特征对齐至冻结VLM的零样本(zero-shot)特征,从而有效保护模型的泛化能力。在推理阶段,采用解耦策略:对于基础类别(base classes),同时利用表示特征与类别特征;而对于新类别(novel tasks),仅使用保留更强泛化能力的类别特征。在15个不同数据集上的大量实验表明,MMRL显著优于当前最先进的方法,在任务特定适应性与泛化能力之间实现了更优的平衡。相关代码已开源,地址为:https://github.com/yunncheng/MMRL。

代码仓库

yunncheng/MMRL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-caltech-101MMRL
Harmonic mean: 96.68
prompt-engineering-on-dtdMMRL
Harmonic mean: 73.82
prompt-engineering-on-eurosatMMRL
Harmonic mean: 87.21
prompt-engineering-on-fgvc-aircraftMMRL
Harmonic mean: 41.15
prompt-engineering-on-food-101MMRL
Harmonic mean: 91.03
prompt-engineering-on-imagenetMMRL
Harmonic mean: 74.45
prompt-engineering-on-imagenet-aMMRL
Top-1 accuracy %: 51.20
prompt-engineering-on-imagenet-rMMRL
Top-1 accuracy %: 77.53
prompt-engineering-on-imagenet-sMMRL
Top-1 accuracy %: 49.17
prompt-engineering-on-imagenet-v2MMRL
Top-1 accuracy %: 64.47
prompt-engineering-on-oxford-102-flowerMMRL
Harmonic mean: 86.78
prompt-engineering-on-oxford-iiit-pet-datasetMMRL
Harmonic mean: 96.74
prompt-engineering-on-stanford-cars-1MMRL
Harmonic mean: 78.06
prompt-engineering-on-sun397MMRL
Harmonic mean: 81.20
prompt-engineering-on-ucf101MMRL
Harmonic mean: 83.89

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MMRL:面向视觉-语言模型的多模态表示学习 | 论文 | HyperAI超神经