4 个月前

InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型

InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型

摘要

我们推出了InternLM-XComposer-2.5(IXC-2.5),这是一款支持长上下文输入和输出的多功能大型视觉语言模型。IXC-2.5在多种文本-图像理解和生成应用中表现出色,仅使用7B参数的大规模语言模型(LLM)后端即可达到GPT-4V级别的能力。该模型经过24K交错图像-文本上下文的训练,通过RoPE外推技术可以无缝扩展到96K的长上下文。这种长上下文能力使得IXC-2.5在需要大量输入和输出上下文的任务中表现优异。相比之前的2.0版本,InternLM-XComposer-2.5在视觉语言理解方面进行了三项重大升级:(1)超高分辨率理解,(2)细粒度视频理解,(3)多轮多图像对话。除了理解能力之外,IXC-2.5还通过额外的LoRA参数扩展到了两个引人注目的文本-图像生成应用:(1)网页设计,(2)高质量文本-图像文章创作。IXC-2.5已在28个基准测试中进行了评估,在16个基准测试上超越了现有的开源最先进模型,并在16个关键任务上超过了或接近GPT-4V和Gemini Pro的表现。InternLM-XComposer-2.5现已公开发布,可在https://github.com/InternLM/InternLM-XComposer获取。

代码仓库

internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
temporal-relation-extraction-on-vinogroundInternLM-XC-2.5
Group Score: 9.6
Text Score: 28.8
Video Score: 27.8
temporal-relation-extraction-on-vinogroundInternLM-XC-2.5 (CoT)
Group Score: 9
Text Score: 30.8
Video Score: 28.4
video-question-answering-on-tvbenchIXC-2.5 7B
Average Accuracy: 51.6
visual-question-answering-on-mm-vetIXC-2.5-7B
GPT-4 score: 51.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型 | 论文 | HyperAI超神经