6 个月前

多模态表征

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

摘要

近年来，视觉-语言模型的性能通过增加视觉标记（visual tokens）的长度得到了显著提升，但这也导致视觉标记远长于文本标记，计算开销大幅增加。然而，我们观察到，当前主流视觉编码器（如CLIP和SigLIP）生成的视觉标记中存在显著冗余。为解决这一问题，我们提出VisionZip——一种简单而高效的方法，通过选择一组具有信息量的视觉标记输入语言模型，有效降低视觉标记的冗余度，在保持模型性能的同时显著提升效率。VisionZip可广泛应用于图像与视频理解任务，尤其适用于现实场景中的多轮对话，而此前的方法在该场景下往往表现不佳。实验结果表明，VisionZip在几乎所有设置下均比此前的最先进方法提升至少5%的性能。此外，我们的方法显著加快了模型推理速度，使预填充（prefilling）时间提升8倍，并实现LLaVA-Next 13B模型的推理速度超过LLaVA-Next 7B模型，同时获得更优的性能表现。最后，我们深入分析了冗余产生的原因，并呼吁社区将研究重点转向提取更优的视觉特征，而非单纯增加标记长度。相关代码已开源，地址为：https://github.com/dvlab-research/VisionZip。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

摘要

近年来，视觉-语言模型的性能通过增加视觉标记（visual tokens）的长度得到了显著提升，但这也导致视觉标记远长于文本标记，计算开销大幅增加。然而，我们观察到，当前主流视觉编码器（如CLIP和SigLIP）生成的视觉标记中存在显著冗余。为解决这一问题，我们提出VisionZip——一种简单而高效的方法，通过选择一组具有信息量的视觉标记输入语言模型，有效降低视觉标记的冗余度，在保持模型性能的同时显著提升效率。VisionZip可广泛应用于图像与视频理解任务，尤其适用于现实场景中的多轮对话，而此前的方法在该场景下往往表现不佳。实验结果表明，VisionZip在几乎所有设置下均比此前的最先进方法提升至少5%的性能。此外，我们的方法显著加快了模型推理速度，使预填充（prefilling）时间提升8倍，并实现LLaVA-Next 13B模型的推理速度超过LLaVA-Next 7B模型，同时获得更优的性能表现。最后，我们深入分析了冗余产生的原因，并呼吁社区将研究重点转向提取更优的视觉特征，而非单纯增加标记长度。相关代码已开源，地址为：https://github.com/dvlab-research/VisionZip。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

VisionZip：在视觉语言模型中，更长并不一定更好 | 论文 | HyperAI超神经