4 个月前

面向鲁棒的视频对象分割与自适应对象校准

面向鲁棒的视频对象分割与自适应对象校准

摘要

在视频时代的蓬勃发展背景下,视频分割在多媒体研究社区中吸引了越来越多的关注。半监督视频对象分割(VOS)的目标是在给定参考帧中标注的对象掩码的情况下,对视频中的所有目标帧进行对象分割。现有的大多数方法通过构建像素级的参考-目标关联,然后进行像素级跟踪以获得目标掩码。然而,由于忽视了对象级别的线索,这些基于像素的方法使得跟踪容易受到扰动的影响,甚至无法区分相似的对象。为了实现更稳健的VOS,关键在于校准每个特定对象的表示和掩码,使其具有表达性和辨别性。为此,我们提出了一种新的深度网络,该网络可以自适应地构建对象表示并校准对象掩码,从而实现更强的鲁棒性。首先,我们通过应用自适应对象代理(Adaptive Object Proxy, AOP)聚合方法来构建对象表示,其中代理代表多层级的任意形状片段作为参考。然后,根据AOP生成的参考-目标关联初步生成原型掩码。接下来,这些原型掩码在网络调制的过程中进一步校准,条件是基于对象代理表示。我们将这一条件下的掩码校准过程以渐进的方式整合起来,在此过程中对象表示和原型掩码逐步进化为更具辨识度的形式。我们在标准的VOS基准数据集YouTube-VOS-18/19和DAVIS-17上进行了广泛的实验。我们的模型在现有已发表的工作中达到了最先进的性能,并且表现出对扰动的卓越鲁棒性。我们的项目代码库位于https://github.com/JerryX1110/Robust-Video-Object-Segmentation。

代码仓库

jerryx1110/robust-video-object-segmentation
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-object-segmentation-on-davis-2016AOC-MF (val)
F-Score: 94.7
Jaccard (Mean): 88.5
video-object-segmentation-on-davis-2017AOC-MF (val)
F-Score: 85.9
Jaccard (Mean): 81.7
visual-object-tracking-on-youtube-vos-1AOC-Base
F-Measure (Seen): 87.2
F-Measure (Unseen): 86.3
Jaccard (Seen): 82.6
Jaccard (Unseen): 78.3
O (Average of Measures): 83.6
visual-object-tracking-on-youtube-vos-1AOC-MF
F-Measure (Seen): 87.4
F-Measure (Unseen): 87.1
Jaccard (Seen): 82.7
Jaccard (Unseen): 78.8
O (Average of Measures): 84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向鲁棒的视频对象分割与自适应对象校准 | 论文 | HyperAI超神经