
摘要
参考视频对象分割(RVOS)旨在根据文本描述对视频中的目标对象进行分割。尽管近年来取得了显著进展,但当前的RVOS模型在处理复杂对象描述时仍面临挑战,这主要是由于其有限的视频-语言理解能力。为了解决这一问题,我们提出了ReferDINO,这是一种端到端的RVOS模型,继承了预训练视觉定位基础模型的强大视觉-语言理解能力,并进一步具备了有效的时序理解和对象分割能力。在ReferDINO中,我们贡献了三项技术创新,以有效适应基础模型到RVOS任务:对象一致性时序增强器:利用预训练的对象-文本表示来增强时序理解和对象一致性;基于定位的可变形掩码解码器:整合文本和定位条件生成精确的对象掩码;置信度感知查询剪枝策略:在不牺牲性能的前提下显著提高对象解码效率。我们在五个公开的RVOS基准数据集上进行了广泛的实验,结果表明我们提出的ReferDINO显著优于现有的最先进方法。项目页面:https://isee-laboratory.github.io/ReferDINO
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refer-1 | ReferDINO (Swin-B) | F: 71.5 J: 67.0 Ju0026F: 69.3 |
| referring-video-object-segmentation-on-mevis | ReferDINO (Swin-B) | F: 53.9 J: 44.7 Ju0026F: 49.3 |