
摘要
无监督视频对象分割旨在对视频序列中最显著的对象进行分割。然而,复杂背景和多个前景对象的存在使得这一任务极具挑战性。为了解决这一问题,我们提出了一种引导槽注意力网络,以增强空间结构信息并获得更好的前景-背景分离效果。该网络通过查询引导初始化前景和背景槽,并基于与模板信息的交互迭代地优化这些槽。此外,为了改进槽-模板交互并有效融合目标帧和参考帧中的全局和局部特征,引入了K近邻过滤(K-nearest neighbors filtering)和特征聚合变换器(feature aggregation transformer)。所提出的模型在两个流行数据集上实现了最先进的性能。另外,我们通过各种对比实验展示了所提模型在复杂场景中的鲁棒性。
代码仓库
hydragon516/gsanet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | GSANet | F: 89.6 G: 88.9 J: 88.3 |
| unsupervised-video-object-segmentation-on-11 | GSANet | J: 83.1 |