
摘要
当前的半监督视频目标分割(VOS)方法通常利用一帧中的全部特征来预测目标掩码并更新记忆。这引入了显著的冗余计算。为了减少冗余,我们提出了一种区域感知视频目标分割(RAVOS)方法,该方法通过预测感兴趣区域(ROIs)实现高效的目标分割和记忆存储。RAVOS 包含一个快速目标运动跟踪器,用于预测下一帧中的 ROIs。为了实现高效的分割,根据 ROIs 提取目标特征,并设计了一个对象解码器以进行对象级别的分割。为了实现高效的记忆存储,我们提出了运动路径记忆机制,通过记住两帧之间目标的运动路径内的特征来过滤掉冗余上下文。除了 RAVOS 方法外,我们还提出了一种大规模数据集,命名为 OVOS,用于评估在遮挡情况下 VOS 模型的性能。在 DAVIS 和 YouTube-VOS 基准测试以及我们的新 OVOS 数据集上的评估表明,我们的方法在显著提高推理速度的同时达到了最先进的性能,例如,在 DAVIS 上以 42 帧每秒的速度实现了 86.1 的 J&F 分数,在 YouTube-VOS 上以 23 帧每秒的速度实现了 84.4 的 J&F 分数。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-segmentation-on-youtube-vos | RAVOS | F-Measure (Seen): 87.8 F-Measure (Unseen): 87.4 Jaccard (Seen): 83.1 Jaccard (Unseen): 79.1 Overall: 84.4 Speed (FPS): 23 |
| visual-object-tracking-on-davis-2016 | RAVOS | F-measure (Mean): 92.6 Ju0026F: 91.7 Jaccard (Mean): 90.8 Speed (FPS): 58 |
| visual-object-tracking-on-davis-2017 | RAVOS | F-measure (Mean): 89.3 Ju0026F: 86.1 Jaccard (Mean): 82.9 Speed (FPS): 42 (on 3090) |