
摘要
视觉-语言模型(Vision-Language Models, VLMs)在多种多模态任务中展现出卓越的性能,然而大型VLM在处理大量视觉标记(visual tokens)时面临显著的效率瓶颈。一种有前景的加速大型VLM推理的方法是利用部分信息(如特定层的注意力图)来评估标记的重要性,并剪枝冗余或非关键的视觉标记。然而,我们的研究揭示了三个关键发现:(i)仅依赖部分注意力信息不足以准确识别关键视觉标记,导致性能下降,尤其在低标记保留率下表现尤为明显;(ii)全局注意力信息(如跨所有层聚合的注意力图)能更有效地保留关键标记,在激进剪枝条件下仍可维持相近的性能表现。然而,获取所有层的注意力图需要完成一次完整的前向推理过程,增加了计算开销,因此在现有方法中难以实际应用;(iii)由小型VLM聚合得到的全局注意力图与大型VLM的注意力图高度相似,表明存在一种高效的替代方案。基于上述发现,我们提出了一种无需训练的方法——小型VLM引导的大型VLM加速方法(Small VLM Guidance for accelerating Large VLMs, SGL)。具体而言,我们利用小型VLM聚合得到的注意力图,指导大型VLM中的视觉标记剪枝。此外,我们设计了一种早期退出机制,充分挖掘小型VLM的预测能力,仅在必要时动态调用大型VLM,从而在准确率与计算成本之间实现了更优的权衡。在11个基准任务上的广泛实验表明,SGL具有出色的性能表现与良好的泛化能力,在保持竞争力性能的同时,实现了高达91%的视觉标记剪枝率。
代码仓库
NUS-HPC-AI-Lab/SGL
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-mm-vet | InternVL2-26B (SGP, token ratio 9%) | GPT-4 score: 52.10 Params: 26B |
| visual-question-answering-on-mm-vet | InternVL2-26B (SGP, token ratio 35%) | GPT-4 score: 63.20 Params: 26B |
| visual-question-answering-on-mm-vet | InternVL2-26B (SGP, token ratio 64%) | GPT-4 score: 65.60 Params: 26B |