
摘要
Segment Anything 模型(SAM)因其在视觉提示下的卓越交互分割能力而引起了广泛关注,但其对文本提示的进一步探索尚显不足。本文通过实证研究探讨了哪些文本提示编码器(例如,CLIP 或大型语言模型(LLM))适合用于适应 SAM 进行指代表达分割,并介绍了基于早期视觉-语言融合的 SAM(EVF-SAM)。EVF-SAM 是一种简单而有效的指代分割方法,利用多模态提示(即图像和文本),并包含一个预训练的视觉-语言模型来生成指代提示,以及一个 SAM 模型进行分割。令人惊讶的是,我们观察到:(1) 多模态提示和 (2) 早期融合的视觉-语言模型(例如,BEIT-3)有助于引导 SAM 实现准确的指代表达分割。实验结果表明,基于 BEIT-3 的所提出的 EVF-SAM 在 RefCOCO/+/g 数据集上的指代表达分割任务中取得了最先进的性能,并展示了早期视觉-语言融合引导 SAM 的优越性。此外,参数量为 13.2 亿的 EVF-SAM 相比于基于大型多模态模型的先前 SAM 方法,在显著提高性能的同时减少了近 82% 的参数量。
代码仓库
hustvl/evf-sam
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco | EVF-SAM | Overall IoU: 82.1 |
| referring-expression-segmentation-on-refcoco-3 | EVF-SAM | Overall IoU: 75.2 |
| referring-expression-segmentation-on-refcoco-4 | EVF-SAM | Overall IoU: 78.3 |
| referring-expression-segmentation-on-refcoco-5 | EVF-SAM | Overall IoU: 70.1 |
| referring-expression-segmentation-on-refcoco-8 | EVF-SAM | Overall IoU: 83.7 |
| referring-expression-segmentation-on-refcoco-9 | EVF-SAM | Overall IoU: 80 |
| referring-expression-segmentation-on-refcocog | EVF-SAM | Overall IoU: 76.8 |
| referring-expression-segmentation-on-refcocog-1 | EVF-SAM | Overall IoU: 77.4 |