Xiaoyi DongPan ZhangYuhang ZangYuhang CaoBin WangLinke OuyangXilin WeiSongyang ZhangHaodong DuanMaosong CaoWenwei ZhangYining LiHang YanYang GaoXinyue ZhangWei LiJingwen LiKai ChenConghui HeXingcheng ZhangYu QiaoDahua LinJiaqi Wang

摘要
我们提出InternLM-XComposer2,一款前沿的视觉-语言模型,在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴,能够灵活地根据多种输入(如草图、详细文本描述及参考图像)生成交错排列的图文混合内容,实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配(Partial LoRA, PLoRA)方法,仅在图像令牌上应用额外的LoRA参数,从而有效保留预训练语言模型的知识完整性,在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明,基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越,且在多个基准测试中展现出出色的视觉-语言理解能力,不仅显著优于现有主流多模态模型,更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平,充分体现了其在多模态理解领域的强大实力。目前,参数规模为7B的InternLM-XComposer2模型系列已公开发布,可访问GitHub获取:https://github.com/InternLM/InternLM-XComposer。
代码仓库
internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternLM-XComposer2 | GPT-4 score: 51.2 |
| visual-question-answering-on-mm-vet-v2 | IXC2-VL-7B | GPT-4 score: 42.5±0.3 |