摘要

去年，多模态架构在基于人工智能的方法与解决方案中掀起了一场革命，显著拓展了大语言模型（LLM）的能力边界。本文提出一种基于预训练大语言模型与视觉模态适配器的通用融合模型——OmniFusion。我们系统评估并比较了多种架构设计原则，以实现文本与视觉数据更高效的耦合：包括MLP适配器与Transformer适配器、多种基于CLIP ViT结构的编码器（如SigLIP、InternVIT等）、不同的融合策略、图像编码方式（整体图像编码或图像块编码），以及两种70亿参数规模的LLM（一种专有模型与开源的Mistral模型）。在8个视觉-语言基准测试上的实验结果表明，最优配置的OmniFusion模型在多项视觉问答（VQA）任务中表现卓越，显著优于现有的开源LLaVA类解决方案，涵盖VizWiz、Pope、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2和MMMU等多个主流评测集。此外，我们还展示了OmniFusion在多个实际应用场景中生成高度详尽回答的能力，涵盖家庭事务、旅游导览、文化理解、医学诊断、手写与扫描方程识别等不同领域。基于Mistral的OmniFusion模型为开源方案，其模型权重、训练脚本与推理代码均已公开，可访问GitHub仓库获取：https://github.com/AIRI-Institute/OmniFusion。

源 PDF