
摘要
指代图像分割旨在通过自然语言表达来分割目标对象。由于文本和图像之间的数据特性存在显著差异,网络在对齐文本和像素级特征方面面临巨大挑战。现有的方法通常利用预训练模型来促进学习,但分别从预训练模型中迁移语言和视觉知识,忽略了多模态对应信息。受近期对比语言-图像预训练(CLIP)进展的启发,本文提出了一种端到端的CLIP驱动指代图像分割框架(CRIS)。为了有效迁移多模态知识,CRIS采用了视觉-语言解码和对比学习技术来实现文本到像素的对齐。具体而言,我们设计了一个视觉-语言解码器,用于将细粒度的语义信息从文本表示传播到每个像素级激活,从而增强两种模态之间的一致性。此外,我们引入了文本到像素的对比学习方法,显式地强制文本特征与相关像素级特征相似,并与无关特征不同。实验结果表明,在三个基准数据集上,所提出的框架在无需任何后处理的情况下显著优于现有最佳性能。代码将在后续发布。
代码仓库
DerrickWang005/CRIS.pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalized-referring-expression-segmentation | CRIS | cIoU: 55.34 gIoU: 56.27 |
| referring-expression-segmentation-on-refcoco | CRIS | Overall IoU: 70.47 |
| referring-expression-segmentation-on-refcoco-3 | CRIS | Overall IoU: 62.27 |
| referring-expression-segmentation-on-refcoco-4 | CRIS | Overall IoU: 68.08 |
| referring-expression-segmentation-on-refcoco-5 | CRIS | Overall IoU: 53.68 |