3 个月前

一针见血:小型VLM是加速大型VLM的精准引导

一针见血:小型VLM是加速大型VLM的精准引导

摘要

视觉-语言模型(Vision-Language Models, VLMs)在多种多模态任务中展现出卓越的性能,然而大型VLM在处理大量视觉标记(visual tokens)时面临显著的效率瓶颈。一种有前景的加速大型VLM推理的方法是利用部分信息(如特定层的注意力图)来评估标记的重要性,并剪枝冗余或非关键的视觉标记。然而,我们的研究揭示了三个关键发现:(i)仅依赖部分注意力信息不足以准确识别关键视觉标记,导致性能下降,尤其在低标记保留率下表现尤为明显;(ii)全局注意力信息(如跨所有层聚合的注意力图)能更有效地保留关键标记,在激进剪枝条件下仍可维持相近的性能表现。然而,获取所有层的注意力图需要完成一次完整的前向推理过程,增加了计算开销,因此在现有方法中难以实际应用;(iii)由小型VLM聚合得到的全局注意力图与大型VLM的注意力图高度相似,表明存在一种高效的替代方案。基于上述发现,我们提出了一种无需训练的方法——小型VLM引导的大型VLM加速方法(Small VLM Guidance for accelerating Large VLMs, SGL)。具体而言,我们利用小型VLM聚合得到的注意力图,指导大型VLM中的视觉标记剪枝。此外,我们设计了一种早期退出机制,充分挖掘小型VLM的预测能力,仅在必要时动态调用大型VLM,从而在准确率与计算成本之间实现了更优的权衡。在11个基准任务上的广泛实验表明,SGL具有出色的性能表现与良好的泛化能力,在保持竞争力性能的同时,实现了高达91%的视觉标记剪枝率。

代码仓库

NUS-HPC-AI-Lab/SGL
官方
jax
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-mm-vetInternVL2-26B (SGP, token ratio 9%)
GPT-4 score: 52.10
Params: 26B
visual-question-answering-on-mm-vetInternVL2-26B (SGP, token ratio 35%)
GPT-4 score: 63.20
Params: 26B
visual-question-answering-on-mm-vetInternVL2-26B (SGP, token ratio 64%)
GPT-4 score: 65.60
Params: 26B

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一针见血:小型VLM是加速大型VLM的精准引导 | 论文 | HyperAI超神经