Pan ZhangXiaoyi DongYuhang ZangYuhang CaoRui QianLin ChenQipeng GuoHaodong DuanBin WangLinke OuyangSongyang ZhangWenwei ZhangYining LiYang GaoPeng SunXinyue ZhangWei LiJingwen LiWenhai WangHang YanConghui HeXingcheng ZhangKai ChenJifeng DaiYu QiaoDahua LinJiaqi Wang

摘要
我们推出了InternLM-XComposer-2.5(IXC-2.5),这是一款支持长上下文输入和输出的多功能大型视觉语言模型。IXC-2.5在多种文本-图像理解和生成应用中表现出色,仅使用7B参数的大规模语言模型(LLM)后端即可达到GPT-4V级别的能力。该模型经过24K交错图像-文本上下文的训练,通过RoPE外推技术可以无缝扩展到96K的长上下文。这种长上下文能力使得IXC-2.5在需要大量输入和输出上下文的任务中表现优异。相比之前的2.0版本,InternLM-XComposer-2.5在视觉语言理解方面进行了三项重大升级:(1)超高分辨率理解,(2)细粒度视频理解,(3)多轮多图像对话。除了理解能力之外,IXC-2.5还通过额外的LoRA参数扩展到了两个引人注目的文本-图像生成应用:(1)网页设计,(2)高质量文本-图像文章创作。IXC-2.5已在28个基准测试中进行了评估,在16个基准测试上超越了现有的开源最先进模型,并在16个关键任务上超过了或接近GPT-4V和Gemini Pro的表现。InternLM-XComposer-2.5现已公开发布,可在https://github.com/InternLM/InternLM-XComposer获取。
代码仓库
internlm/internlm-xcomposer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| temporal-relation-extraction-on-vinoground | InternLM-XC-2.5 | Group Score: 9.6 Text Score: 28.8 Video Score: 27.8 |
| temporal-relation-extraction-on-vinoground | InternLM-XC-2.5 (CoT) | Group Score: 9 Text Score: 30.8 Video Score: 28.4 |
| video-question-answering-on-tvbench | IXC-2.5 7B | Average Accuracy: 51.6 |
| visual-question-answering-on-mm-vet | IXC-2.5-7B | GPT-4 score: 51.7 |