3 个月前

InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解

InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解

摘要

我们提出InternLM-XComposer2,一款前沿的视觉-语言模型,在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴,能够灵活地根据多种输入(如草图、详细文本描述及参考图像)生成交错排列的图文混合内容,实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配(Partial LoRA, PLoRA)方法,仅在图像令牌上应用额外的LoRA参数,从而有效保留预训练语言模型的知识完整性,在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明,基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越,且在多个基准测试中展现出出色的视觉-语言理解能力,不仅显著优于现有主流多模态模型,更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平,充分体现了其在多模态理解领域的强大实力。目前,参数规模为7B的InternLM-XComposer2模型系列已公开发布,可访问GitHub获取:https://github.com/InternLM/InternLM-XComposer。

代码仓库

internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetInternLM-XComposer2
GPT-4 score: 51.2
visual-question-answering-on-mm-vet-v2IXC2-VL-7B
GPT-4 score: 42.5±0.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解 | 论文 | HyperAI超神经