
摘要
指代视频对象分割(Referring Video Object Segmentation, RVOS)的核心在于建模密集的文本-视频关系,以在像素级别上将抽象的语言概念与动态的视觉内容关联起来。当前的RVOS方法通常使用独立预训练的视觉和语言模型作为骨干网络。由于图像和文本被映射到未耦合的特征空间,这些方法面临着从头开始学习视觉-语言(Vision-Language, VL)关系建模的艰巨任务。鉴于视觉-语言预训练(Vision-Language Pretrained, VLP)模型的成功,我们提出基于其对齐的VL特征空间来学习RVOS的关系建模。然而,将VLP模型迁移到RVOS是一项具有挑战性的任务,因为预训练任务(静态图像/区域级预测)与RVOS任务(动态像素级预测)之间存在显著差距。为了解决这一迁移难题,我们引入了一个名为VLP-RVOS的框架,该框架通过时间感知适应来利用VLP模型进行RVOS。首先,我们提出了一种时间感知提示调优方法,不仅使预训练表示适应于像素级预测,还增强了视觉编码器对时间上下文的建模能力。其次,我们定制了一种立方帧注意力机制,以实现稳健的空间-时间推理。此外,我们建议在特征提取过程中及之后进行多阶段VL关系建模,以全面理解VL关系。大量实验表明,我们的方法在性能上优于现有最先进的算法,并表现出强大的泛化能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refer-1 | VLP (VLMo-L) | F: 69.8 J: 65.3 Ju0026F: 67.6 |