
摘要
半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)旨在对视频首帧中指定的目标对象实现像素级跟踪。为了充分挖掘目标对象的外观信息,像素级特征匹配在VOS任务中被广泛采用。传统的特征匹配采用满射(surjective)方式,即仅考虑从查询帧到参考帧的最佳匹配结果。在此机制下,查询帧中的每个像素位置仅对应参考帧中的最优匹配位置,而不论参考帧中某一位置被引用的频率如何。该方法在大多数情况下表现良好,且对目标外观的快速变化具有较强的鲁棒性,但在查询帧中存在与目标外观相似的背景干扰物时,可能引发严重错误。为缓解这一问题,本文提出一种双射(bijective)匹配机制,实现查询帧与参考帧之间的双向最优匹配。在为查询帧像素寻找最佳匹配之前,首先考虑参考帧像素的最优匹配,以避免参考帧中的任意像素被过度引用。由于该机制具有严格的约束性——仅当两个像素互为确定性匹配时才建立连接,因此能够有效消除背景干扰物的影响。此外,本文还提出一种掩码嵌入(mask embedding)模块,以改进现有的掩码传播方法。该模块通过融合带有坐标信息的历史掩码,能够有效捕捉目标对象在空间中的位置信息,从而提升分割结果的准确性和一致性。
代码仓库
suhwan-cho/bmvos
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | BMVOS | D16 val (F): 81.4 D16 val (G): 82.2 D16 val (J): 82.9 D17 test (F): 64.7 D17 test (G): 62.7 D17 test (J): 60.7 D17 val (F): 74.7 D17 val (G): 72.7 D17 val (J): 70.7 FPS: 45.9 |