3 个月前

超越单一模型:面向通用视觉-语言模型的定制化集成方法

超越单一模型:面向通用视觉-语言模型的定制化集成方法

摘要

将预训练的视觉-语言模型(VLMs),如CLIP,用于开放世界泛化,因其实际应用价值而日益受到关注。然而,仅依赖复杂算法设计来优化单一模型,即使该模型本身表现优异(如CLIP-ViT-B/16),其性能提升也面临瓶颈。本文首次探索了利用性能较弱的多个VLM协同增强一个强健单模型泛化能力的潜力。积极的研究发现促使我们从全新视角——预训练VLM的集成(ensemble)——来应对泛化难题。为此,本文提出了三种定制化的集成策略,每种策略针对特定应用场景进行优化:首先,提出零样本集成(zero-shot ensemble),在仅使用预训练VLM的情况下,自动根据各模型的置信度调整其输出logits;其次,在存在少量额外样本的场景下,提出无需训练且无需调参的集成方法(training-free and tuning ensemble),以适应不同计算资源条件下的灵活性需求。所提出的集成策略在零样本泛化、基类到新类泛化以及跨数据集泛化任务上均取得了当前最优性能,显著超越现有方法。值得注意的是,本工作标志着通过集成策略提升VLM泛化能力的初步探索。相关代码已开源,地址为:https://github.com/zhiheLu/Ensemble_VLM.git。

代码仓库

zhihelu/ensemble_vlm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
prompt-engineering-on-imagenetCustomized Ensemble
Harmonic mean: 75.49

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越单一模型:面向通用视觉-语言模型的定制化集成方法 | 论文 | HyperAI超神经