摘要
本文提出了一种新颖的端到端学习神经网络——MATNet,用于零样本视频对象分割(Zero-Shot Video Object Segmentation, ZVOS)。受人类视觉注意力机制的启发,MATNet利用运动线索作为自下而上的信号,引导对物体外观的感知。为此,在双流编码器网络中引入了一种非对称注意力模块,称为运动感知过渡模块(Motion-Attentive Transition, MAT),该模块首先识别运动区域,随后引导外观学习,以捕捉物体的完整范围。通过在不同卷积层中嵌入多个MAT模块,我们的编码器结构实现了深度交错,从而在物体外观与运动信息之间建立起紧密的层级交互。这种具有生物启发性的设计被证明显著优于传统双流结构——后者通常在独立的流中分别处理运动与外观信息,容易导致对物体外观的严重过拟合。此外,我们设计了一种桥接网络,用于将多尺度时空特征映射为更加紧凑、具有判别性且对尺度敏感的表示,并将其输入到一个边界感知解码器网络中,以生成边界清晰、精度高的分割结果。我们在四个具有挑战性的公开基准数据集(DAVIS16、DAVIS17、FBMS 和 YouTube-Objects)上进行了大量定量与定性实验,结果表明,所提方法在性能上显著优于当前最先进的ZVOS方法。为进一步验证所提出时空学习框架的泛化能力,我们将MATNet拓展至另一相关任务:动态视觉注意力预测(Dynamic Visual Attention Prediction, DVAP)。在Hollywood-2与UCF-Sports两个主流数据集上的实验进一步证实了该模型的优越性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-4 | MATNet | F-measure (Mean): 60.4 F-measure (Recall): 68.2 Ju0026F: 58.6 Jaccard (Mean): 56.7 Jaccard (Recall): 65.2 |
| video-polyp-segmentation-on-sun-seg-easy | MAT | Dice: 0.710 S measure: 0.770 Sensitivity: 0.542 mean E-measure: 0.737 mean F-measure: 0.641 weighted F-measure: 0.575 |
| video-polyp-segmentation-on-sun-seg-hard | MAT | Dice: 0.712 S-Measure: 0.785 Sensitivity: 0.579 mean E-measure: 0.755 mean F-measure: 0.645 weighted F-measure: 0.578 |