4 个月前

InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型

InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型

摘要

我们提出了一种名为InternLM-XComposer的视觉-语言大模型,该模型能够实现高级图像-文本理解和生成。我们的模型具有以下三个引人注目的特性:1)交错式文本-图像生成:InternLM-XComposer可以轻松生成连贯且上下文相关的文章,无缝集成图像,提供更加吸引人和沉浸式的阅读体验。只需提供写作指令,系统即可生成相应的稿件。它能够智能地识别出文本中哪些部分可以通过插入图像来增强内容,并自动选择最合适的视觉素材进行插入。2)丰富的多语言知识理解:通过在精心设计的策略下训练一个广泛的多模态多语言数据库,该模型对视觉内容的理解达到了深层次。3)最先进的性能:我们的模型在各种主流的视觉-语言基础模型基准测试中始终表现出色,包括MME基准测试、MMBench、MMBench-CN、Seed-Bench、CCBench(中国传统文化基准测试)、QBench和Tiny LVLM。由于缺乏定量评估文本-图像生成效果的标准指标,我们设计了一套稳健的评估程序,其中包括人类评审和GPT4-Vision (GPT4-V),以确保可靠性。值得注意的是,我们的InternLM-XComposer在与公开解决方案(如GPT4-V和GPT3.5)相比时,其文本-图像生成得分具有竞争力。总体而言,InternLM-XComposer将先进的文本-图像理解和生成技术无缝融合,革新了视觉-语言交互方式,并提供了新的见解和机会。InternLM-XComposer模型系列已在https://github.com/InternLM/InternLM-XComposer公开发布。

基准测试

基准方法指标
visual-question-answering-vqa-on-core-mmInternLM-XComposer-VL
Abductive: 35.97
Analogical: 18.61
Deductive: 26.77
Overall score: 26.84
Params: 9B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternLM-XComposer:一种用于高级文本-图像理解与生成的视觉-语言大模型 | 论文 | HyperAI超神经