4 个月前

模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合

模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合

摘要

我们提出了一种模块化交互式视频对象分割(Modular interactive VOS, MiVOS)框架,该框架将交互到掩模和掩模传播解耦,从而提高了泛化能力和性能。交互模块和传播模块分别训练,交互模块将用户交互转换为对象掩模,然后通过我们的传播模块使用一种新颖的前$k$过滤策略读取时空记忆来实现时间上的传播。为了有效考虑用户的意图,我们提出了一种新颖的差异感知模块,该模块学习如何在每次交互前后适当地融合掩模,这些掩模通过利用时空记忆与目标帧对齐。我们在DAVIS数据集上以不同的用户交互形式(例如,涂鸦、点击)对我们的方法进行了定性和定量评估,结果表明我们的方法在需要较少帧交互的情况下优于当前最先进的算法,并且具有泛化到不同类型的用户交互的优势。我们贡献了一个大规模的合成VOS数据集,包含480万帧的像素级精确分割,并附带源代码以促进未来的研究。

代码仓库

limingxing00/rde-vos-cvpr2022
pytorch
GitHub 中提及
hkchengrex/MiVOS
官方
pytorch
GitHub 中提及
hkchengrex/Scribble-to-Mask
pytorch
GitHub 中提及
Vujas-Eteph/CiVOS
pytorch
GitHub 中提及
hkchengrex/Mask-Propagation
pytorch
GitHub 中提及

基准测试

基准方法指标
interactive-video-object-segmentation-onMiVOS
AUC-J: 0.849
AUC-Ju0026F: 0.879
Ju0026F@60s: 0.885
J@60s: 0.854
semi-supervised-video-object-segmentation-on-1MiVOS
F-measure (Decay): 14.5
F-measure (Mean): 80.2
F-measure (Recall): 87.6
Ju0026F: 76.5
Jaccard (Decay): 14.9
Jaccard (Mean): 72.7
Jaccard (Recall): 81.2
video-object-segmentation-on-youtube-vosMiVOS
F-Measure (Seen): 84.7
F-Measure (Unseen): 85.5
Jaccard (Seen): 80.6
Jaccard (Unseen): 77.3
Overall: 82.0
visual-object-tracking-on-davis-2016MiVOS
F-measure (Decay): 5.1
F-measure (Mean): 92.4
F-measure (Recall): 96.4
Ju0026F: 91.0
Jaccard (Decay): 6.6
Jaccard (Mean): 89.7
Jaccard (Recall): 97.5
Speed (FPS): 16.9
visual-object-tracking-on-davis-2017MiVOS
F-measure (Decay): 8.2
F-measure (Mean): 87.4
F-measure (Recall): 93.1
Ju0026F: 84.5
Jaccard (Decay): 7.0
Jaccard (Mean): 81.7
Jaccard (Recall): 90.9
Speed (FPS): 11.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
模块化交互式视频对象分割:从交互到掩模、传播及差异感知融合 | 论文 | HyperAI超神经