Zhe ChenWeiyun WangHao TianShenglong YeZhangwei GaoErfei CuiWenwen TongKongzhi HuJiapeng LuoZheng MaJi MaJiaqi WangXiaoyi DongHang YanHewei GuoConghui HeZhenjiang JinChao XuBin WangXingjian WeiWei LiWenjian ZhangLewei LuXizhou ZhuTong LuDahua LinYu Qiao

摘要
在本报告中,我们介绍了InternVL 1.5,这是一个开源的多模态大语言模型(MLLM),旨在缩小开源模型与专有商业模型在多模态理解能力之间的差距。我们提出了三项简单但有效的改进:(1)强大的视觉编码器:我们针对大规模视觉基础模型InternViT-6B探索了一种持续学习策略,显著提升了其视觉理解能力,并使其能够被迁移和复用于不同的大语言模型中;(2)动态高分辨率处理:根据输入图像的宽高比和分辨率,将图像划分为1至40块,每块大小为448×448像素,支持最高达4K分辨率的输入;(3)高质量双语数据集:我们精心构建了一个高质量的双语数据集,涵盖常见场景、文档图像等,并配有中英文问答对,显著提升了模型在OCR及相关中文任务上的表现。我们通过一系列基准测试与对比研究对InternVL 1.5进行了评估。结果表明,相较于开源及专有模型,InternVL 1.5展现出具有竞争力的性能,在18项基准测试中取得了8项的最先进(SOTA)结果。相关代码已开源,地址为:https://github.com/OpenGVLab/InternVL。
代码仓库
opengvlab/internvl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternVL 1.2 | GPT-4 score: 48.9 Params: 40B |
| visual-question-answering-on-mm-vet | InternVL 1.5 | GPT-4 score: 62.8 Params: 26B |
| visual-question-answering-on-mm-vet-v2 | InternVL-Chat-V1-5 | GPT-4 score: 51.5±0.2 |