XuNing ; YangLinjie ; FanYuchen ; YangJianchao ; YueDingcheng ; LiangYuchen ; PriceBrian ; CohenScott ; HuangThomas

摘要
学习长期时空特征对于许多视频分析任务至关重要。然而,现有的视频分割方法主要依赖于静态图像分割技术,而用于分割的时间依赖性捕捉方法则需要依赖预训练的光流模型,这导致了该问题的次优解决方案。端到端的序列学习在探索视频分割中的时空特征方面受到了可用视频分割数据集规模的限制,即即使最大的视频分割数据集也仅包含90个短视频片段。为了解决这一问题,我们构建了一个新的大规模视频对象分割数据集,称为YouTube视频对象分割数据集(YouTube-VOS)。我们的数据集包含了3,252个YouTube视频片段和78个类别,包括常见的物体和人类活动。据我们所知,这是迄今为止最大的视频对象分割数据集,并且我们已在https://youtube-vos.org发布了该数据集。基于此数据集,我们提出了一种新颖的序列到序列网络,以充分利用视频中的长期时空信息进行分割。我们展示了我们的方法能够在我们的YouTube-VOS测试集上取得最佳结果,并且在DAVIS 2016上的表现与当前最先进的方法相当。实验表明,大规模数据集确实是我们的模型成功的关键因素。
代码仓库
BehradToghi/ECCV_Youtube_VOS
tf
GitHub 中提及
BehradToghi/ConvLSTM_VOS
tf
GitHub 中提及
T-a-g-z/Yotube-VOS-OVS
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-object-segmentation-on-youtube-vos | S2S | F-Measure (Seen): 70.0 F-Measure (Unseen): 61.2 Jaccard (Seen): 71.0 Overall: 64.4 Speed (FPS): 55.5 |
| video-object-segmentation-on-youtube-vos-1 | S2S (offline) | F-Measure (Unseen): 50.3 |