3 个月前

通过模型、数据与测试时扩展,突破开源多模态模型的性能边界

通过模型、数据与测试时扩展,突破开源多模态模型的性能边界

摘要

我们推出InternVL 2.5,这是一个先进的多模态大语言模型(MLLM)系列,基于InternVL 2.0进行演进,在保持其核心模型架构的基础上,显著提升了训练与测试策略以及数据质量。在本研究中,我们系统性地探讨了模型规模与性能之间的关系,深入分析了视觉编码器、语言模型、数据集规模以及测试阶段配置等关键因素的性能趋势。通过在涵盖多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等多个基准上的广泛评估,InternVL 2.5展现出具有竞争力的性能,可与GPT-4o、Claude-3.5-Sonnet等领先商业模型相媲美。尤为突出的是,我们的模型是首个在MMMU基准上突破70%得分的开源多模态大模型,通过引入思维链(Chain-of-Thought, CoT)推理方法,实现了3.7个百分点的性能提升,并展现出强大的测试阶段扩展潜力。我们期望该模型能为开源社区带来价值,推动多模态人工智能系统在开发与应用方面树立新的标准。HuggingFace演示地址:https://huggingface.co/spaces/OpenGVLab/InternVL

代码仓库

opengvlab/internvl
官方
pytorch

基准测试

基准方法指标
video-question-answering-on-next-qaInternVL-2.5(8B)
Accuracy: 85.5
visual-question-answering-on-mm-vetInternVL2.5-78B
GPT-4 score: 72.3
Params: 78B
visual-question-answering-on-mm-vetInternVL2.5-38B
GPT-4 score: 68.8
Params: 38B
visual-question-answering-on-mm-vetInternVL2.5-26B
GPT-4 score: 65.0
Params: 26B
visual-question-answering-on-mm-vetInternVL2.5-2B
GPT-4 score: 60.8
Params: 2B
visual-question-answering-on-mm-vetInternVL2.5-1B
GPT-4 score: 48.8
Params: 1B
visual-question-answering-on-mm-vetInternVL2.5-4B
GPT-4 score: 60.6
Params: 4B
visual-question-answering-on-mm-vetInternVL2.5-8B
GPT-4 score: 62.8
Params: 8B
visual-question-answering-vqa-on-vlm2-benchInternVL2.5-26B
Average Score on VLM2-bench (9 subtasks): 45.59
GC-mat: 30.50
GC-trk: 30.59
OC-cnt: 51.48
OC-cpr: 43.33
OC-grp: 52.50
PC-VID: 21.75
PC-cnt: 59.70
PC-cpr: 59.50
PC-grp: 61.00
visual-question-answering-vqa-on-vlm2-benchInternVL2.5-8B
Average Score on VLM2-bench (9 subtasks): 41.23
GC-mat: 21.24
GC-trk: 26.03
OC-cnt: 55.23
OC-cpr: 53.33
OC-grp: 46.50
PC-VID: 5.25
PC-cnt: 60.00
PC-cpr: 51.50
PC-grp: 52.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过模型、数据与测试时扩展,突破开源多模态模型的性能边界 | 论文 | HyperAI超神经