3 个月前

通过视觉注意力学习无监督视频对象分割

通过视觉注意力学习无监督视频对象分割

摘要

本文对视觉注意力在无监督视频对象分割(Unsupervised Video Object Segmentation, UVOS)任务中的作用进行了系统性研究。通过在UVOS设置下,对三个主流视频分割数据集(DAVIS、Youtube-Objects 和 SegTrack V2)进行精细标注,引入动态眼动追踪数据,首次实现了对人类观察者视觉注意力行为一致性的定量验证。研究发现,在动态、任务驱动的观看过程中,人类注意力与显式的主要对象判断之间存在显著相关性。这一新发现为理解UVOS任务背后的认知机制提供了深入洞见。受此启发,本文将UVOS任务解耦为两个子任务:在时空域上的UVOS驱动型动态视觉注意力预测(Dynamic Visual Attention Prediction, DVAP),以及在空间域上的注意力引导对象分割(Attention-Guided Object Segmentation, AGOS)。所提出的UVOS解决方案具备三大优势:(1)模块化训练机制,无需依赖昂贵的视频分割标注,而是利用成本较低的动态注视点数据训练初始视频注意力模块,并结合现有的注视点-分割配对的静态图像数据训练后续分割模块;(2)通过多源学习实现对前景对象的全面理解;(3)具备生物学启发性且可评估的注意力机制,带来额外的可解释性。在多个主流基准上的实验结果表明,即使不使用昂贵的视频对象掩码标注,本模型在性能上仍可与当前最先进的方法相媲美,展现出强大的竞争力。

基准测试

基准方法指标
unsupervised-video-object-segmentation-on-10AGS
F: 77.4
G: 78.6
J: 79.7
unsupervised-video-object-segmentation-on-12AGS
J: 69.7
unsupervised-video-object-segmentation-on-4AGS
F-measure (Mean): 59.5
F-measure (Recall): 62.8
Ju0026F: 57.5
Jaccard (Mean): 55.5
Jaccard (Recall): 61.6
unsupervised-video-object-segmentation-on-5AGS
F-measure (Decay): 2.6
F-measure (Mean): 49.0
F-measure (Recall): 51.5
Ju0026F: 45.6
Jaccard (Decay): 2.6
Jaccard (Mean): 42.1
Jaccard (Recall): 48.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过视觉注意力学习无监督视频对象分割 | 论文 | HyperAI超神经