3 个月前

基于循环关系共识的鲁棒指代视频目标分割

基于循环关系共识的鲁棒指代视频目标分割

摘要

参考视频目标分割(Referring Video Object Segmentation, R-VOS)是一项具有挑战性的任务,旨在根据语言描述对视频中的目标对象进行分割。现有大多数R-VOS方法均依赖于一个关键假设:所指代的对象必须在视频中实际出现。我们称这一假设为“语义一致性”(semantic consensus)。然而,在真实应用场景中,该假设常常被打破——语言表达可能针对的是不存在目标的虚假视频。为此,本文强调了构建具备鲁棒性的R-VOS模型以应对语义不一致问题的必要性。基于此,我们提出了一项扩展任务——鲁棒性R-VOS(Robust R-VOS),该任务可接受未配对的视频-文本输入。为解决这一问题,我们采用联合建模主R-VOS任务与其对偶任务(即文本重建)的方法。引入一种结构化的文本到文本循环约束(structural text-to-text cycle constraint),用于区分视频-文本对之间的语义一致性,并在正样本对中施加该一致性约束,从而实现来自正样本与负样本的多模态对齐。该结构化约束有效应对了语言表达的多样性挑战,克服了以往方法依赖点对点约束所带来的局限性。此外,我们构建了一个新的评估数据集——R²-Youtube-VOS,用于衡量模型在语义不一致场景下的鲁棒性。实验结果表明,我们的模型在标准R-VOS基准数据集Ref-DAVIS17和Ref-Youtube-VOS上均取得了当前最优性能,并在自建的R²-Youtube-VOS数据集上展现出卓越的鲁棒性表现。

代码仓库

lxa9867/R2VOS
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-refer-1R2VOS (Video-Swin-T)
F: 63.1
J: 59.6
Ju0026F: 61.3
referring-video-object-segmentation-on-referR2VOS (Swin-T)
F: 61.5
J: 58.9
Ju0026F: 60.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于循环关系共识的鲁棒指代视频目标分割 | 论文 | HyperAI超神经