8 个月前

摘要

指代视频对象分割（Referring Video Object Segmentation, RVOS）的核心在于建模密集的文本-视频关系，以在像素级别上将抽象的语言概念与动态的视觉内容关联起来。当前的RVOS方法通常使用独立预训练的视觉和语言模型作为骨干网络。由于图像和文本被映射到未耦合的特征空间，这些方法面临着从头开始学习视觉-语言（Vision-Language, VL）关系建模的艰巨任务。鉴于视觉-语言预训练（Vision-Language Pretrained, VLP）模型的成功，我们提出基于其对齐的VL特征空间来学习RVOS的关系建模。然而，将VLP模型迁移到RVOS是一项具有挑战性的任务，因为预训练任务（静态图像/区域级预测）与RVOS任务（动态像素级预测）之间存在显著差距。为了解决这一迁移难题，我们引入了一个名为VLP-RVOS的框架，该框架通过时间感知适应来利用VLP模型进行RVOS。首先，我们提出了一种时间感知提示调优方法，不仅使预训练表示适应于像素级预测，还增强了视觉编码器对时间上下文的建模能力。其次，我们定制了一种立方帧注意力机制，以实现稳健的空间-时间推理。此外，我们建议在特征提取过程中及之后进行多阶段VL关系建模，以全面理解VL关系。大量实验表明，我们的方法在性能上优于现有最先进的算法，并表现出强大的泛化能力。

源 PDF