
摘要
本文对视觉注意力在无监督视频对象分割(Unsupervised Video Object Segmentation, UVOS)任务中的作用进行了系统性研究。通过在UVOS设置下,对三个主流视频分割数据集(DAVIS、Youtube-Objects 和 SegTrack V2)进行精细标注,引入动态眼动追踪数据,首次实现了对人类观察者视觉注意力行为一致性的定量验证。研究发现,在动态、任务驱动的观看过程中,人类注意力与显式的主要对象判断之间存在显著相关性。这一新发现为理解UVOS任务背后的认知机制提供了深入洞见。受此启发,本文将UVOS任务解耦为两个子任务:在时空域上的UVOS驱动型动态视觉注意力预测(Dynamic Visual Attention Prediction, DVAP),以及在空间域上的注意力引导对象分割(Attention-Guided Object Segmentation, AGOS)。所提出的UVOS解决方案具备三大优势:(1)模块化训练机制,无需依赖昂贵的视频分割标注,而是利用成本较低的动态注视点数据训练初始视频注意力模块,并结合现有的注视点-分割配对的静态图像数据训练后续分割模块;(2)通过多源学习实现对前景对象的全面理解;(3)具备生物学启发性且可评估的注意力机制,带来额外的可解释性。在多个主流基准上的实验结果表明,即使不使用昂贵的视频对象掩码标注,本模型在性能上仍可与当前最先进的方法相媲美,展现出强大的竞争力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | AGS | F: 77.4 G: 78.6 J: 79.7 |
| unsupervised-video-object-segmentation-on-12 | AGS | J: 69.7 |
| unsupervised-video-object-segmentation-on-4 | AGS | F-measure (Mean): 59.5 F-measure (Recall): 62.8 Ju0026F: 57.5 Jaccard (Mean): 55.5 Jaccard (Recall): 61.6 |
| unsupervised-video-object-segmentation-on-5 | AGS | F-measure (Decay): 2.6 F-measure (Mean): 49.0 F-measure (Recall): 51.5 Ju0026F: 45.6 Jaccard (Decay): 2.6 Jaccard (Mean): 42.1 Jaccard (Recall): 48.5 |