
摘要
近期在多模态大语言模型(Multimodal Large Language Models, LLMs)领域的进展主要集中在通过增加文本-图像对数据和增强LLMs来提升其在多模态任务中的性能。然而,这些扩展方法计算成本高昂,并且忽视了从视觉方面改进模型能力的重要性。受混合专家(Mixture-of-Experts, MoE)在LLMs中成功应用的启发,该方法在训练过程中提高了模型的可扩展性,同时保持推理成本与较小模型相似,我们提出了CuMo。CuMo将共循环Top-K稀疏门控混合专家模块引入视觉编码器和MLP连接器中,从而在推理时以最小的额外激活参数增强多模态LLMs。CuMo首先预训练MLP模块,然后在视觉指令调优阶段从预训练的MLP模块初始化每个专家。辅助损失用于确保专家之间的负载均衡。CuMo在各种VQA和视觉指令跟随基准测试中超越了当前最先进的多模态LLMs,且仅使用开源数据集进行训练。CuMo的代码和模型权重已开源,可在https://github.com/SHI-Labs/CuMo 获取。
代码仓库
shi-labs/cumo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-instruction-following-on-llava-bench | CuMo-7B | avg score: 85.7 |
| visual-question-answering-on-gqa-test-dev | CuMo-7B | Accuracy: 64.9 |
| visual-question-answering-on-mm-vet | CuMo-7B | GPT-4 score: 51.0 Params: 7B |
| visual-question-answering-on-mmbench | CuMo-7B | GPT-3.5 score: 73.0 |
| visual-question-answering-on-vqa-v2-test-dev | CuMo-7B | Accuracy: 82.2 |