4 个月前

EVF-SAM:早期视觉-语言融合用于文本提示的任意分割模型

EVF-SAM:早期视觉-语言融合用于文本提示的任意分割模型

摘要

Segment Anything 模型(SAM)因其在视觉提示下的卓越交互分割能力而引起了广泛关注,但其对文本提示的进一步探索尚显不足。本文通过实证研究探讨了哪些文本提示编码器(例如,CLIP 或大型语言模型(LLM))适合用于适应 SAM 进行指代表达分割,并介绍了基于早期视觉-语言融合的 SAM(EVF-SAM)。EVF-SAM 是一种简单而有效的指代分割方法,利用多模态提示(即图像和文本),并包含一个预训练的视觉-语言模型来生成指代提示,以及一个 SAM 模型进行分割。令人惊讶的是,我们观察到:(1) 多模态提示和 (2) 早期融合的视觉-语言模型(例如,BEIT-3)有助于引导 SAM 实现准确的指代表达分割。实验结果表明,基于 BEIT-3 的所提出的 EVF-SAM 在 RefCOCO/+/g 数据集上的指代表达分割任务中取得了最先进的性能,并展示了早期视觉-语言融合引导 SAM 的优越性。此外,参数量为 13.2 亿的 EVF-SAM 相比于基于大型多模态模型的先前 SAM 方法,在显著提高性能的同时减少了近 82% 的参数量。

代码仓库

hustvl/evf-sam
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
EVF-SAM:早期视觉-语言融合用于文本提示的任意分割模型 | 论文 | HyperAI超神经