3 个月前

用于视频目标分割的分层记忆匹配网络

用于视频目标分割的分层记忆匹配网络

摘要

我们提出了一种用于半监督视频对象分割的分层记忆匹配网络(Hierarchical Memory Matching Network, HMMN)。基于最近提出的基于记忆的方法[33],我们设计了两种先进的记忆读取模块,能够在多尺度下执行记忆读取的同时充分利用时间平滑性。首先,我们提出一种核引导的记忆匹配模块,替代了以往基于记忆方法中常见的非局部密集记忆读取方式。该模块在记忆读取过程中引入时间平滑性约束,从而实现更精确的记忆检索。更重要的是,我们提出了分层记忆匹配机制,并设计了一种 top-k 引导的记忆匹配模块,使得在细粒度尺度上的记忆读取能够由粗粒度尺度上的读取结果进行引导。通过该模块,我们能够高效地在多个尺度上进行记忆读取,并充分融合高层语义特征与低层细粒度记忆特征,以预测高精度的物体掩码。所提出的网络在 DAVIS 2016/2017 的验证集上分别取得了 90.8% 和 84.7% 的性能,在 YouTube-VOS 2018/2019 的验证集上分别达到 82.6% 和 82.5% 的表现,并在 DAVIS 2017 的测试开发集上取得 78.6% 的成绩,达到当前最优水平。源代码与预训练模型已公开:https://github.com/Hongje/HMMN。

代码仓库

hongje/hmmn
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-1HMMN
F-measure (Mean): 82.5
Ju0026F: 78.6
Jaccard (Mean): 74.7
semi-supervised-video-object-segmentation-on-20HMMN
D16 val (F): 90.6
D16 val (G): 89.4
D16 val (J): 88.2
D17 val (F): 83.1
D17 val (G): 80.4
D17 val (J): 77.7
FPS: 10.0
video-object-segmentation-on-youtube-vosHMMN
F-Measure (Seen): 87.0
F-Measure (Unseen): 84.6
Jaccard (Seen): 82.1
Jaccard (Unseen): 76.8
Overall: 82.6
visual-object-tracking-on-davis-2016HMMN
F-measure (Mean): 92.0
Ju0026F: 90.8
Jaccard (Mean): 89.6
visual-object-tracking-on-davis-2017HMMN
F-measure (Mean): 87.5
Ju0026F: 84.7
Jaccard (Mean): 81.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频目标分割的分层记忆匹配网络 | 论文 | HyperAI超神经