4 个月前

时空卷积神经网络用于视频对象分割

时空卷积神经网络用于视频对象分割

摘要

在本文中,我们提出了一种统一的、端到端可训练的时空卷积神经网络(CNN)模型,用于视频对象分割(VOS),该模型由两个分支组成,即时间一致性分支和空间分割分支。具体而言,时间一致性分支以对抗方式从无标签视频数据预训练而来,旨在捕捉视频序列中的动态外观和运动线索,以指导对象分割。空间分割分支则专注于根据学习到的外观和运动线索精确地分割对象。为了获得准确的分割结果,我们设计了一个从粗到细的过程,依次在多尺度特征图上应用设计好的注意力模块,并将它们连接起来生成最终预测。通过这种方式,空间分割分支被强制逐步集中在对象区域。这两个分支以端到端的方式在视频分割序列上联合微调。我们在三个具有挑战性的数据集(即 DAVIS-2016、DAVIS-2017 和 Youtube-Object)上进行了多次实验,结果显示我们的方法在性能上优于现有最先进的方法。代码可在 https://github.com/longyin880815/STCNN 获取。

代码仓库

longyin880815/STCNN
官方
pytorch

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-20STCNN
D16 val (F): 83.8
D16 val (G): 83.8
D16 val (J): 83.8
D17 val (F): 64.6
D17 val (G): 61.7
D17 val (J): 58.7
FPS: 0.26
video-object-segmentation-on-youtubeSpatiotemporal CNN
mIoU: 0.796
visual-object-tracking-on-davis-2016Spatiotemporal CNN
F-measure (Mean): 83.8
Ju0026F: 83.8
Jaccard (Mean): 83.8
visual-object-tracking-on-davis-2017Spatiotemporal CNN
F-measure (Mean): 64.6
Ju0026F: 61.65
Jaccard (Mean): 58.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
时空卷积神经网络用于视频对象分割 | 论文 | HyperAI超神经