6 个月前

摘要

将预训练的视觉-语言模型（VLMs），如CLIP，用于开放世界泛化，因其实际应用价值而日益受到关注。然而，仅依赖复杂算法设计来优化单一模型，即使该模型本身表现优异（如CLIP-ViT-B/16），其性能提升也面临瓶颈。本文首次探索了利用性能较弱的多个VLM协同增强一个强健单模型泛化能力的潜力。积极的研究发现促使我们从全新视角——预训练VLM的集成（ensemble）——来应对泛化难题。为此，本文提出了三种定制化的集成策略，每种策略针对特定应用场景进行优化：首先，提出零样本集成（zero-shot ensemble），在仅使用预训练VLM的情况下，自动根据各模型的置信度调整其输出logits；其次，在存在少量额外样本的场景下，提出无需训练且无需调参的集成方法（training-free and tuning ensemble），以适应不同计算资源条件下的灵活性需求。所提出的集成策略在零样本泛化、基类到新类泛化以及跨数据集泛化任务上均取得了当前最优性能，显著超越现有方法。值得注意的是，本工作标志着通过集成策略提升VLM泛化能力的初步探索。相关代码已开源，地址为：https://github.com/zhiheLu/Ensemble_VLM.git。

源 PDF