3 个月前

先定位,再追踪:解耦指代视频目标分割中的识别与传播

先定位,再追踪:解耦指代视频目标分割中的识别与传播

摘要

参考视频目标分割旨在利用自然语言提示,在视频中对目标对象进行分割与跟踪。现有方法通常以高度耦合的方式融合视觉与文本特征,将多模态信息共同处理以生成每帧的掩码。然而,这种处理方式在存在多个相似物体的场景中,往往难以准确识别目标,导致目标关联模糊,并且难以保证掩码在帧间传播的一致性。为解决上述局限,本文提出一种新型解耦框架——FindTrack,该框架将目标识别与掩码传播过程分离。FindTrack 首先通过平衡分割置信度与视觉-文本对齐程度,自适应地选择关键帧,从而建立一个稳健的目标参考。随后,专用的传播模块基于该参考,对整个视频中的目标进行持续跟踪与分割。通过解耦两个核心步骤,FindTrack 有效降低了目标关联的歧义性,并显著提升了分割结果的一致性。实验表明,FindTrack 在多个公开基准数据集上均优于现有方法。

代码仓库

suhwan-cho/FindTrack
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
referring-video-object-segmentation-on-mevisFindTrack
F: 50.7
J: 45.6
Ju0026F: 48.2
referring-video-object-segmentation-on-refFindTrack
F: 78.5
J: 69.9
Ju0026F: 74.2
referring-video-object-segmentation-on-referFindTrack
F: 72.0
J: 68.6
Ju0026F: 70.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
先定位,再追踪:解耦指代视频目标分割中的识别与传播 | 论文 | HyperAI超神经