4 个月前

CuMo: 通过协同再利用的专家混合模型扩展多模态LLM

CuMo: 通过协同再利用的专家混合模型扩展多模态LLM

摘要

近期在多模态大语言模型(Multimodal Large Language Models, LLMs)领域的进展主要集中在通过增加文本-图像对数据和增强LLMs来提升其在多模态任务中的性能。然而,这些扩展方法计算成本高昂,并且忽视了从视觉方面改进模型能力的重要性。受混合专家(Mixture-of-Experts, MoE)在LLMs中成功应用的启发,该方法在训练过程中提高了模型的可扩展性,同时保持推理成本与较小模型相似,我们提出了CuMo。CuMo将共循环Top-K稀疏门控混合专家模块引入视觉编码器和MLP连接器中,从而在推理时以最小的额外激活参数增强多模态LLMs。CuMo首先预训练MLP模块,然后在视觉指令调优阶段从预训练的MLP模块初始化每个专家。辅助损失用于确保专家之间的负载均衡。CuMo在各种VQA和视觉指令跟随基准测试中超越了当前最先进的多模态LLMs,且仅使用开源数据集进行训练。CuMo的代码和模型权重已开源,可在https://github.com/SHI-Labs/CuMo 获取。

代码仓库

shi-labs/cumo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-instruction-following-on-llava-benchCuMo-7B
avg score: 85.7
visual-question-answering-on-gqa-test-devCuMo-7B
Accuracy: 64.9
visual-question-answering-on-mm-vetCuMo-7B
GPT-4 score: 51.0
Params: 7B
visual-question-answering-on-mmbenchCuMo-7B
GPT-3.5 score: 73.0
visual-question-answering-on-vqa-v2-test-devCuMo-7B
Accuracy: 82.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CuMo: 通过协同再利用的专家混合模型扩展多模态LLM | 论文 | HyperAI超神经