3 个月前

我们距离GPT-4V还有多远?基于开源套件缩小与商用多模态模型的差距

我们距离GPT-4V还有多远?基于开源套件缩小与商用多模态模型的差距

摘要

在本报告中,我们介绍了InternVL 1.5,这是一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与专有商业模型在多模态理解能力之间的差距。我们提出了三项简单但有效的改进:(1)强大的视觉编码器:我们针对大规模视觉基础模型InternViT-6B探索了一种持续学习策略,显著提升了其视觉理解能力,并使其能够被迁移和复用于不同的大语言模型中;(2)动态高分辨率处理:根据输入图像的宽高比和分辨率,将图像划分为1至40块,每块大小为448×448像素,支持最高达4K分辨率的输入;(3)高质量双语数据集:我们精心构建了一个高质量的双语数据集,涵盖常见场景、文档图像等,并配有中英文问答对,显著提升了模型在OCR及相关中文任务上的表现。我们通过一系列基准测试与对比研究对InternVL 1.5进行了评估。结果表明,相较于开源及专有模型,InternVL 1.5展现出具有竞争力的性能,在18项基准测试中取得了8项的最先进(SOTA)结果。相关代码已开源,地址为:https://github.com/OpenGVLab/InternVL。

代码仓库

opengvlab/internvl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetInternVL 1.2
GPT-4 score: 48.9
Params: 40B
visual-question-answering-on-mm-vetInternVL 1.5
GPT-4 score: 62.8
Params: 26B
visual-question-answering-on-mm-vet-v2InternVL-Chat-V1-5
GPT-4 score: 51.5±0.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
我们距离GPT-4V还有多远?基于开源套件缩小与商用多模态模型的差距 | 论文 | HyperAI超神经