3 个月前

运动感知的转换用于零样本视频对象分割

运动感知的转换用于零样本视频对象分割

摘要

本文提出了一种新颖的运动感知过渡网络(Motion-Attentive Transition Network, MATNet),用于零样本视频对象分割(zero-shot video object segmentation),为利用运动信息增强时空对象表征提供了新思路。在双流编码器结构中,我们设计了一种非对称注意力模块——运动感知过渡(Motion-Attentive Transition, MAT),该模块在每个卷积阶段将外观特征转换为运动感知的表示形式。通过这一机制,编码器实现深层交织,使得对象运动与外观特征之间能够进行紧密的层级交互。相较于传统的双流架构(该架构在各流中独立处理运动与外观信息,易过度依赖外观特征而产生过拟合问题),本方法具有显著优势。此外,本文还提出了一种桥接网络(bridge network),用于融合多层级编码器特征,生成紧凑、具有判别性且对尺度敏感的特征表示,并将其输入解码器以实现最终的分割结果。在三个具有挑战性的公开基准数据集(DAVIS-16、FBMS 和 Youtube-Objects)上的大量实验表明,所提模型在性能上显著优于当前最先进的方法。

代码仓库

tfzhou/MATNet
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
运动感知的转换用于零样本视频对象分割 | 论文 | HyperAI超神经