3 个月前

STEm-Seg:视频实例分割中的时空嵌入

STEm-Seg:视频实例分割中的时空嵌入

摘要

现有的视频实例分割方法通常采用多阶段流水线,遵循“检测后跟踪”(tracking-by-detection)范式,并将视频片段建模为一系列图像序列。这些方法需使用多个网络在单帧中检测目标,再在时间维度上对检测结果进行关联。因此,这类方法通常难以端到端训练,且高度依赖于特定任务。本文提出一种新方法,适用于多种涉及视频实例分割的任务。具体而言,我们将视频片段建模为一个单一的三维时空体积(3D spatio-temporal volume),并提出一种新颖的一阶段方法,能够在时空维度上统一完成实例分割与跟踪。我们的方法核心思想是基于时空嵌入(spatio-temporal embeddings),通过训练使这些嵌入能够将属于同一目标实例的所有像素在整段视频中进行聚类。为此,我们引入了:(i) 一种新型的混合函数,用于增强时空嵌入的特征表示能力;(ii) 一个单阶段、无需候选框(proposal-free)的网络结构,能够有效建模时间上下文信息。该网络可端到端训练,同时学习时空嵌入及其聚类所需参数,从而显著简化推理过程。实验结果表明,该方法在多个数据集和任务上均取得了当前最优性能。代码与模型已开源,地址为:https://github.com/sabarim/STEm-Seg。

代码仓库

sabarim/STEm-Seg
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
unsupervised-video-object-segmentation-on-4STEm-Seg
F-measure (Mean): 67.8
F-measure (Recall): 75.5
Ju0026F: 64.7
Jaccard (Mean): 61.5
Jaccard (Recall): 70.4
video-instance-segmentation-on-youtube-vis-1STEm-Seg (ResNet-101)
AP50: 55.8
AP75: 37.9
AR1: 34.4
AR10: 41.6
mask AP: 34.6
video-instance-segmentation-on-youtube-vis-1STEm-Seg (ResNet-50)
AP50: 50.7
AP75: 37.9
AR1: 34.4
AR10: 41.6
mask AP: 30.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
STEm-Seg:视频实例分割中的时空嵌入 | 论文 | HyperAI超神经