
摘要
半监督视频目标分割任务旨在仅凭第一帧中的掩码标注,对视频序列中的目标对象进行分割。由于可用信息极为有限,该任务极具挑战性。以往表现最优的方法大多采用基于匹配的归纳推理(transductive reasoning)或在线归纳学习(online inductive learning)策略。然而,这些方法要么在区分相似实例时缺乏判别能力,要么在利用时空信息方面仍显不足。在本工作中,我们提出将归纳学习与归纳推理整合到一个统一框架中,以充分利用二者之间的互补性,实现更准确且鲁棒的视频目标分割。所提方法包含两个功能分支:其中,归纳分支采用轻量级Transformer架构,以有效聚合丰富的时空特征;而归纳分支则执行在线归纳学习,以获取具有强判别性的目标信息。为连接这两个差异较大的分支,我们引入了一个双头标签编码器(two-head label encoder),用于分别为两个分支学习合适的先验目标信息。进一步地,生成的掩码编码被强制解耦,以更好地保留其互补特性。在多个主流基准数据集上的大量实验表明,该方法无需依赖合成训练数据,即可在多个任务上创下一系列新的最先进(SOTA)性能记录。代码已开源,地址为:https://github.com/maoyunyao/JOINT。
代码仓库
maoyunyao/joint
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | JOINT | D17 val (F): 81.2 D17 val (G): 78.6 D17 val (J): 76.0 FPS: 4.00 |
| visual-object-tracking-on-davis-2017 | JOINT | F-measure (Mean): 81.2 Ju0026F: 78.6 Jaccard (Mean): 76.0 |