3 个月前

基于核函数的记忆网络用于视频目标分割

基于核函数的记忆网络用于视频目标分割

摘要

半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)是一项任务,即在第一帧中提供目标对象的真实分割掩码的情况下,预测视频中后续帧中该目标对象的分割结果。近年来,时空记忆网络(Space-Time Memory Networks, STM)因其出色的性能而成为解决半监督VOS问题的有前景方案。然而,在将STM应用于VOS任务时,一个关键问题被忽视了:STM本身具有非局部特性,而VOS任务本质上是局部性的。为解决STM与VOS之间的这一本质不匹配问题,我们提出了一种核化记忆网络(Kernelized Memory Network, KMN)。在真实视频上进行训练之前,我们的KMN首先在静态图像上进行预训练,这一策略延续了以往的工作。然而,与以往方法不同的是,我们在预训练阶段引入了“藏匿与寻找”(Hide-and-Seek)策略,以显著提升模型在处理遮挡情况以及精确提取分割边界方面的性能。实验结果表明,所提出的KMN在标准基准测试中显著超越现有最先进方法,尤其在DAVIS 2017测试开发集上取得了+5%的性能提升。此外,KMN在DAVIS 2016验证集上的单帧推理时间为0.12秒,且与STM相比,几乎不引入额外的计算开销,具有优异的实时性与效率。

代码仓库

hkchengrex/Mask-Propagation
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-1KMN
F-measure (Mean): 80.3
Ju0026F: 77.2
Jaccard (Mean): 74.1
semi-supervised-video-object-segmentation-on-20KMN
D16 val (F): 88.1
D16 val (G): 87.6
D16 val (J): 87.1
D17 val (F): 77.8
D17 val (G): 76.0
D17 val (J): 74.2
FPS: 8.33
video-object-segmentation-on-youtube-vosKMN
F-Measure (Seen): 85.6
F-Measure (Unseen): 83.3
Jaccard (Seen): 81.4
Jaccard (Unseen): 75.3
Overall: 81.4
visual-object-tracking-on-davis-2016KMN
F-measure (Mean): 91.5
Ju0026F: 90.5
Jaccard (Mean): 89.5
visual-object-tracking-on-davis-2017KMN
F-measure (Mean): 85.6
Ju0026F: 82.8
Jaccard (Mean): 80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于核函数的记忆网络用于视频目标分割 | 论文 | HyperAI超神经