
摘要
我们提出了一种模块化交互式视频对象分割(Modular interactive VOS, MiVOS)框架,该框架将交互到掩模和掩模传播解耦,从而提高了泛化能力和性能。交互模块和传播模块分别训练,交互模块将用户交互转换为对象掩模,然后通过我们的传播模块使用一种新颖的前$k$过滤策略读取时空记忆来实现时间上的传播。为了有效考虑用户的意图,我们提出了一种新颖的差异感知模块,该模块学习如何在每次交互前后适当地融合掩模,这些掩模通过利用时空记忆与目标帧对齐。我们在DAVIS数据集上以不同的用户交互形式(例如,涂鸦、点击)对我们的方法进行了定性和定量评估,结果表明我们的方法在需要较少帧交互的情况下优于当前最先进的算法,并且具有泛化到不同类型的用户交互的优势。我们贡献了一个大规模的合成VOS数据集,包含480万帧的像素级精确分割,并附带源代码以促进未来的研究。
代码仓库
limingxing00/rde-vos-cvpr2022
pytorch
GitHub 中提及
hkchengrex/MiVOS
官方
pytorch
GitHub 中提及
hkchengrex/Scribble-to-Mask
pytorch
GitHub 中提及
Vujas-Eteph/CiVOS
pytorch
GitHub 中提及
hkchengrex/Mask-Propagation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| interactive-video-object-segmentation-on | MiVOS | AUC-J: 0.849 AUC-Ju0026F: 0.879 Ju0026F@60s: 0.885 J@60s: 0.854 |
| semi-supervised-video-object-segmentation-on-1 | MiVOS | F-measure (Decay): 14.5 F-measure (Mean): 80.2 F-measure (Recall): 87.6 Ju0026F: 76.5 Jaccard (Decay): 14.9 Jaccard (Mean): 72.7 Jaccard (Recall): 81.2 |
| video-object-segmentation-on-youtube-vos | MiVOS | F-Measure (Seen): 84.7 F-Measure (Unseen): 85.5 Jaccard (Seen): 80.6 Jaccard (Unseen): 77.3 Overall: 82.0 |
| visual-object-tracking-on-davis-2016 | MiVOS | F-measure (Decay): 5.1 F-measure (Mean): 92.4 F-measure (Recall): 96.4 Ju0026F: 91.0 Jaccard (Decay): 6.6 Jaccard (Mean): 89.7 Jaccard (Recall): 97.5 Speed (FPS): 16.9 |
| visual-object-tracking-on-davis-2017 | MiVOS | F-measure (Decay): 8.2 F-measure (Mean): 87.4 F-measure (Recall): 93.1 Ju0026F: 84.5 Jaccard (Decay): 7.0 Jaccard (Mean): 81.7 Jaccard (Recall): 90.9 Speed (FPS): 11.2 |