8 个月前

摘要

近期在多模态大语言模型（Multimodal Large Language Models, LLMs）领域的进展主要集中在通过增加文本-图像对数据和增强LLMs来提升其在多模态任务中的性能。然而，这些扩展方法计算成本高昂，并且忽视了从视觉方面改进模型能力的重要性。受混合专家（Mixture-of-Experts, MoE）在LLMs中成功应用的启发，该方法在训练过程中提高了模型的可扩展性，同时保持推理成本与较小模型相似，我们提出了CuMo。CuMo将共循环Top-K稀疏门控混合专家模块引入视觉编码器和MLP连接器中，从而在推理时以最小的额外激活参数增强多模态LLMs。CuMo首先预训练MLP模块，然后在视觉指令调优阶段从预训练的MLP模块初始化每个专家。辅助损失用于确保专家之间的负载均衡。CuMo在各种VQA和视觉指令跟随基准测试中超越了当前最先进的多模态LLMs，且仅使用开源数据集进行训练。CuMo的代码和模型权重已开源，可在https://github.com/SHI-Labs/CuMo 获取。

源 PDF