
摘要
如何有效融合外观与运动信息以适应复杂场景,是基于光流的零样本视频对象分割领域中的一个核心问题。本文提出了一种注意力多模态协同网络(Attentive Multi-Modality Collaboration Network, AMC-Net),旨在统一利用外观与运动信息。具体而言,AMC-Net在两个阶段中融合多模态特征的鲁棒信息,并促进其协同作用。首先,我们在双边编码器分支上提出了一种多模态共注意力门(Multi-Modality Co-Attention Gate, MCG),通过门控机制构建共注意力得分,以平衡多模态特征的贡献,并抑制冗余及误导性信息。随后,我们设计了一种运动校正模块(Motion Correction Module, MCM),该模块引入视觉-运动注意力机制,通过利用外观与运动线索之间的时空对应关系,突出前景目标的特征表示。在三个公开的具有挑战性的基准数据集上的大量实验表明,所提出的AMC-Net在使用更少训练数据的情况下,仍能显著优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-video-object-segmentation-on-10 | AMC-Net | F: 84.6 G: 84.6 J: 84.5 |
| unsupervised-video-object-segmentation-on-11 | AMC-Net | J: 76.5 |
| unsupervised-video-object-segmentation-on-12 | AMC-Net | J: 71.1 |