
摘要
半监督视频对象分割旨在给定第一帧中的掩码情况下,将目标对象从视频序列中分离出来。当前主流方法通常依赖于在其他领域(如光流估计、实例分割)训练的附加模块,因此其性能难以与其他方法在公平条件下进行比较。为解决这一问题,我们提出了一种简单而强大的归纳式方法,该方法无需额外模块、外部数据集或专门的网络结构设计。我们的方法采用标签传播机制,基于嵌入空间中的特征相似性将像素标签向前传递。与现有传播方法不同,我们的方法以整体性方式传播时间信息,能够充分考虑目标对象的长期外观变化。此外,该方法计算开销极低,运行速度可达约37帧每秒(fps)。仅使用标准ResNet50作为主干网络的单一模型,在DAVIS 2017验证集上取得了72.3的综合得分,在测试集上达到63.1的得分。这一简单、高效且性能优越的方法可作为未来研究的坚实基线。代码与模型已开源,详见:\url{https://github.com/microsoft/transductive-vos.pytorch}。
代码仓库
microsoft/transductive-vos.pytorch
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semi-supervised-video-object-segmentation-on-20 | TVOS | D17 test (F): 67.4 D17 test (G): 63.1 D17 test (J): 58.8 D17 val (F): 74.7 D17 val (G): 72.3 D17 val (J): 69.9 FPS: 37.0 |
| visual-object-tracking-on-davis-2017 | TVOS | F-measure (Mean): 74.7 Ju0026F: 72.3 Jaccard (Mean): 69.9 |