Shuhao GuJialing ZhangSiyuan ZhouKevin YuZhaohu XingLiangdong WangZhou CaoJintao JiaZhuoyi ZhangYixuan WangZhenchong HuBo-Wen ZhangJijie LiDong LiangYingli ZhaoYulong AoYaoqi LiuFangxiang FengGuang Liu

摘要
视觉-语言模型(VLMs)近年来取得了显著进展,但开源指令数据的规模和质量有限,导致其性能相比闭源模型有所不足。在本研究中,我们通过引入Infinity-MM来解决这一问题,这是一个包含4000万个样本的大规模多模态指令数据集,经过严格的质量过滤和去重处理。我们还提出了一种基于开源VLMs的合成指令生成方法,该方法利用详细的图像注释和多样化的提问生成。利用这些数据,我们训练了一个拥有20亿参数的VLM——Aquila-VL-2B,在类似规模的模型中达到了最先进的(SOTA)性能。这表明扩展指令数据并生成合成数据可以显著提升开源模型的性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-generation-on-textatlaseval | Infinity-2B | StyledTextSynth Clip Score: 0.2727 StyledTextSynth FID: 84.95 StyledTextSynth OCR (Accuracy): 0.80 StyledTextSynth OCR (Cer): 0.93 StyledTextSynth OCR (F1 Score): 1.42 TextScenesHQ Clip Score: 0.2346 TextScenesHQ FID: 71.59 TextScenesHQ OCR (Accuracy): 1.06 TextScenesHQ OCR (Cer): 0.88 TextScenesHQ OCR (F1 Score): 1.74 TextVisionBlend Clip Score: 0.1979 TextVisionBlend FID: 95.69 TextVisionBlend OCR (Accuracy): 2.98 TextVisionBlend OCR (Cer): 0.83 TextVsionBlend OCR (F1 Score): 3.44 |