6 个月前

摘要

视觉-语言模型（Vision-Language Models, VLMs）在多种多模态任务中展现出卓越的性能，然而大型VLM在处理大量视觉标记（visual tokens）时面临显著的效率瓶颈。一种有前景的加速大型VLM推理的方法是利用部分信息（如特定层的注意力图）来评估标记的重要性，并剪枝冗余或非关键的视觉标记。然而，我们的研究揭示了三个关键发现：（i）仅依赖部分注意力信息不足以准确识别关键视觉标记，导致性能下降，尤其在低标记保留率下表现尤为明显；（ii）全局注意力信息（如跨所有层聚合的注意力图）能更有效地保留关键标记，在激进剪枝条件下仍可维持相近的性能表现。然而，获取所有层的注意力图需要完成一次完整的前向推理过程，增加了计算开销，因此在现有方法中难以实际应用；（iii）由小型VLM聚合得到的全局注意力图与大型VLM的注意力图高度相似，表明存在一种高效的替代方案。基于上述发现，我们提出了一种无需训练的方法——小型VLM引导的大型VLM加速方法（Small VLM Guidance for accelerating Large VLMs, SGL）。具体而言，我们利用小型VLM聚合得到的注意力图，指导大型VLM中的视觉标记剪枝。此外，我们设计了一种早期退出机制，充分挖掘小型VLM的预测能力，仅在必要时动态调用大型VLM，从而在准确率与计算成本之间实现了更优的权衡。在11个基准任务上的广泛实验表明，SGL具有出色的性能表现与良好的泛化能力，在保持竞争力性能的同时，实现了高达91%的视觉标记剪枝率。

源 PDF