
摘要
在大规模网络图像标题数据集上进行图像-文本预训练,已成为开放词汇分类与检索模型的默认范式,这得益于CLIP及其变体的成功。已有若干研究将CLIP的特征用于密集预测任务,并观察到模型涌现出开放集识别能力。然而,这类模型所采用的对比学习目标仅关注图像与文本之间的对齐,而并未激励图像特征在密集预测任务中的有效学习。在本工作中,我们提出SILC——一种新型的视觉-语言预训练框架。SILC通过引入自蒸馏方式的局部到全局对应关系学习,简单而有效地增强了图像-文本对比学习。我们证明,从指数移动平均(EMA)教师模型中蒸馏局部图像特征,能显著提升模型在目标检测、图像分割等密集预测任务上的性能,同时在图像级任务(如分类与检索)上也取得改进。SILC模型在零样本分类、少样本分类、图像与文本检索、零样本分割以及开放词汇分割等任务上均达到了新的最先进水平。此外,我们还表明,SILC特征在开放词汇目标检测、图像描述生成和视觉问答任务中同样表现出显著优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-vocabulary-semantic-segmentation-on-1 | SILC | mIoU: 63.5 |
| open-vocabulary-semantic-segmentation-on-2 | SILC | mIoU: 37.7 |
| open-vocabulary-semantic-segmentation-on-3 | SILC | mIoU: 15.0 |
| open-vocabulary-semantic-segmentation-on-5 | SILC | mIoU: 97.6 |
| open-vocabulary-semantic-segmentation-on-7 | SILC | mIoU: 25.8 |
| open-vocabulary-semantic-segmentation-on-9 | SILC | mIoU: 82.5 |