
摘要
本文提出了一种新颖的运动感知过渡网络(Motion-Attentive Transition Network, MATNet),用于零样本视频对象分割(zero-shot video object segmentation),为利用运动信息增强时空对象表征提供了新思路。在双流编码器结构中,我们设计了一种非对称注意力模块——运动感知过渡(Motion-Attentive Transition, MAT),该模块在每个卷积阶段将外观特征转换为运动感知的表示形式。通过这一机制,编码器实现深层交织,使得对象运动与外观特征之间能够进行紧密的层级交互。相较于传统的双流架构(该架构在各流中独立处理运动与外观信息,易过度依赖外观特征而产生过拟合问题),本方法具有显著优势。此外,本文还提出了一种桥接网络(bridge network),用于融合多层级编码器特征,生成紧凑、具有判别性且对尺度敏感的特征表示,并将其输入解码器以实现最终的分割结果。在三个具有挑战性的公开基准数据集(DAVIS-16、FBMS 和 Youtube-Objects)上的大量实验表明,所提模型在性能上显著优于当前最先进的方法。
代码仓库
tfzhou/MATNet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | MATNet | F: 80.7 G: 81.6 J: 82.4 |
| unsupervised-video-object-segmentation-on-11 | MATNet | J: 76.1 |
| unsupervised-video-object-segmentation-on-12 | MATNet | J: 69.0 |