
摘要
我们提出一种视觉-语言Transformer(Vision-Language Transformer, VLT)框架,用于指代分割任务,旨在促进多模态信息间的深度交互,提升对视觉-语言特征的整体理解能力。在与图像交互过程中,语言表达的动态重点具有多种理解方式。然而,现有Transformer模型在训练完成后所学习到的查询(queries)是固定的,难以应对语言表达在随机性与多样性方面的巨大差异。为解决这一问题,我们提出一种查询生成模块(Query Generation Module),能够动态生成多组针对特定输入的查询,以表征语言表达的多样化理解。为进一步从这些多样化的理解中筛选出最优结果,以生成更精准的分割掩码,我们设计了查询平衡模块(Query Balance Module),用于有选择性地融合多组查询对应的响应特征。此外,为增强模型对多样化语言表达的处理能力,我们引入样本间学习(inter-sample learning)机制,显式地赋予模型理解同一对象不同语言描述的能力。为此,我们提出掩码对比学习(masked contrastive learning)策略,旨在缩小针对同一目标对象的不同语言表达所对应的特征差异,同时增强不同对象特征之间的区分能力。所提出的框架轻量化设计,且在五个基准数据集上 consistently 取得了新的最先进(state-of-the-art)的指代分割性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco | VLT | Overall IoU: 72.96 |
| referring-expression-segmentation-on-refcoco-3 | VLT | Overall IoU: 63.53 |
| referring-expression-segmentation-on-refcoco-4 | VLT | Overall IoU: 68.43 |
| referring-expression-segmentation-on-refcoco-5 | VLT | Overall IoU: 56.92 |
| referring-expression-segmentation-on-refcocog | VLT (Swin-B) | Overall IoU: 63.49 |
| referring-expression-segmentation-on-refer-1 | VLT | F: 65.6 J: 61.9 Ju0026F: 63.8 |
| referring-video-object-segmentation-on-mevis | VLT+TC | F: 37.3 J: 33.6 Ju0026F: 35.5 |
| referring-video-object-segmentation-on-refer | VLT | F: 65.6 J: 61.9 Ju0026F: 63.8 |