3 个月前

基于运动-外观协同注意力的零样本视频对象分割

基于运动-外观协同注意力的零样本视频对象分割

摘要

如何有效融合外观与运动信息以适应复杂场景,是基于光流的零样本视频对象分割领域中的一个核心问题。本文提出了一种注意力多模态协同网络(Attentive Multi-Modality Collaboration Network, AMC-Net),旨在统一利用外观与运动信息。具体而言,AMC-Net在两个阶段中融合多模态特征的鲁棒信息,并促进其协同作用。首先,我们在双边编码器分支上提出了一种多模态共注意力门(Multi-Modality Co-Attention Gate, MCG),通过门控机制构建共注意力得分,以平衡多模态特征的贡献,并抑制冗余及误导性信息。随后,我们设计了一种运动校正模块(Motion Correction Module, MCM),该模块引入视觉-运动注意力机制,通过利用外观与运动线索之间的时空对应关系,突出前景目标的特征表示。在三个公开的具有挑战性的基准数据集上的大量实验表明,所提出的AMC-Net在使用更少训练数据的情况下,仍能显著优于现有的最先进方法。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于运动-外观协同注意力的零样本视频对象分割 | 论文 | HyperAI超神经