4 个月前

利用具有时间感知适应性的视觉-语言预训练模型进行指代视频对象分割

利用具有时间感知适应性的视觉-语言预训练模型进行指代视频对象分割

摘要

指代视频对象分割(Referring Video Object Segmentation, RVOS)的核心在于建模密集的文本-视频关系,以在像素级别上将抽象的语言概念与动态的视觉内容关联起来。当前的RVOS方法通常使用独立预训练的视觉和语言模型作为骨干网络。由于图像和文本被映射到未耦合的特征空间,这些方法面临着从头开始学习视觉-语言(Vision-Language, VL)关系建模的艰巨任务。鉴于视觉-语言预训练(Vision-Language Pretrained, VLP)模型的成功,我们提出基于其对齐的VL特征空间来学习RVOS的关系建模。然而,将VLP模型迁移到RVOS是一项具有挑战性的任务,因为预训练任务(静态图像/区域级预测)与RVOS任务(动态像素级预测)之间存在显著差距。为了解决这一迁移难题,我们引入了一个名为VLP-RVOS的框架,该框架通过时间感知适应来利用VLP模型进行RVOS。首先,我们提出了一种时间感知提示调优方法,不仅使预训练表示适应于像素级预测,还增强了视觉编码器对时间上下文的建模能力。其次,我们定制了一种立方帧注意力机制,以实现稳健的空间-时间推理。此外,我们建议在特征提取过程中及之后进行多阶段VL关系建模,以全面理解VL关系。大量实验表明,我们的方法在性能上优于现有最先进的算法,并表现出强大的泛化能力。

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1VLP (VLMo-L)
F: 69.8
J: 65.3
Ju0026F: 67.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用具有时间感知适应性的视觉-语言预训练模型进行指代视频对象分割 | 论文 | HyperAI超神经