4 个月前

基于时空记忆网络的视频对象分割

基于时空记忆网络的视频对象分割

摘要

我们提出了一种用于半监督视频对象分割的新方法。该问题的本质在于,可用线索(例如带有对象掩码的视频帧)随着中间预测的增加而变得更加丰富。然而,现有的方法无法充分利用这一丰富的信息来源。为了解决这一问题,我们利用了记忆网络,并学习从所有可用来源中读取相关信息。在我们的框架中,带有对象掩码的过去帧构成了外部记忆,当前帧作为查询对象,通过记忆中的掩码信息进行分割。具体而言,查询和记忆在网络特征空间中密集匹配,覆盖所有时空像素位置,并以前馈方式完成。与先前的方法相比,大量使用引导信息使我们能够更好地应对诸如外观变化和遮挡等挑战。我们在最新的基准数据集上验证了我们的方法,并取得了最先进的性能(在 Youtube-VOS 验证集上的总体得分为 79.4,在 DAVIS 2016/2017 验证集上的 J 得分分别为 88.7 和 79.2),同时具有快速的运行时间(在 DAVIS 2016 验证集上每帧仅需 0.16 秒)。

代码仓库

seoungwugoh/STM
pytorch
GitHub 中提及
hkchengrex/Mask-Propagation
pytorch
GitHub 中提及

基准测试

基准方法指标
interactive-video-object-segmentation-onSTM
AUC-Ju0026F: 0.803
Ju0026F@60s: 0.848
semi-supervised-video-object-segmentation-on-1STM
F-measure (Decay): 17.5
F-measure (Mean): 75.2
F-measure (Recall): 83.0
Ju0026F: 72.2
Jaccard (Decay): 16.9
Jaccard (Mean): 69.3
Jaccard (Recall): 78.0
semi-supervised-video-object-segmentation-on-20STM
D16 val (F): 88.1
D16 val (G): 86.5
D16 val (J): 84.8
D17 val (F): 74.0
D17 val (G): 71.6
D17 val (J): 69.2
FPS: 6.25
video-object-segmentation-on-youtube-vosSTM
Overall: 68.2
visual-object-tracking-on-davis-2016STM
F-measure (Decay): 4.2
F-measure (Mean): 90.1
F-measure (Recall): 95.2
Ju0026F: 89.4
Jaccard (Decay): 5.0
Jaccard (Mean): 88.7
Jaccard (Recall): 97.4
visual-object-tracking-on-davis-2017STM
F-measure (Decay): 10.5
F-measure (Mean): 84.3
F-measure (Recall): 91.8
Ju0026F: 81.75
Jaccard (Decay): 8.0
Jaccard (Mean): 79.2
Jaccard (Recall): 88.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于时空记忆网络的视频对象分割 | 论文 | HyperAI超神经