
摘要
参考视频目标分割旨在利用自然语言提示,在视频中对目标对象进行分割与跟踪。现有方法通常以高度耦合的方式融合视觉与文本特征,将多模态信息共同处理以生成每帧的掩码。然而,这种处理方式在存在多个相似物体的场景中,往往难以准确识别目标,导致目标关联模糊,并且难以保证掩码在帧间传播的一致性。为解决上述局限,本文提出一种新型解耦框架——FindTrack,该框架将目标识别与掩码传播过程分离。FindTrack 首先通过平衡分割置信度与视觉-文本对齐程度,自适应地选择关键帧,从而建立一个稳健的目标参考。随后,专用的传播模块基于该参考,对整个视频中的目标进行持续跟踪与分割。通过解耦两个核心步骤,FindTrack 有效降低了目标关联的歧义性,并显著提升了分割结果的一致性。实验表明,FindTrack 在多个公开基准数据集上均优于现有方法。
代码仓库
suhwan-cho/FindTrack
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-video-object-segmentation-on-mevis | FindTrack | F: 50.7 J: 45.6 Ju0026F: 48.2 |
| referring-video-object-segmentation-on-ref | FindTrack | F: 78.5 J: 69.9 Ju0026F: 74.2 |
| referring-video-object-segmentation-on-refer | FindTrack | F: 72.0 J: 68.6 Ju0026F: 70.3 |