6 个月前

计算机视觉

计算机视觉

Tianfei Zhou Shunzhou Wang Yi Zhou Yazhou Yao Jianwu Li Ling Shao

摘要

本文提出了一种新颖的运动感知过渡网络（Motion-Attentive Transition Network, MATNet），用于零样本视频对象分割（zero-shot video object segmentation），为利用运动信息增强时空对象表征提供了新思路。在双流编码器结构中，我们设计了一种非对称注意力模块——运动感知过渡（Motion-Attentive Transition, MAT），该模块在每个卷积阶段将外观特征转换为运动感知的表示形式。通过这一机制，编码器实现深层交织，使得对象运动与外观特征之间能够进行紧密的层级交互。相较于传统的双流架构（该架构在各流中独立处理运动与外观信息，易过度依赖外观特征而产生过拟合问题），本方法具有显著优势。此外，本文还提出了一种桥接网络（bridge network），用于融合多层级编码器特征，生成紧凑、具有判别性且对尺度敏感的特征表示，并将其输入解码器以实现最终的分割结果。在三个具有挑战性的公开基准数据集（DAVIS-16、FBMS 和 Youtube-Objects）上的大量实验表明，所提模型在性能上显著优于当前最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Tianfei Zhou Shunzhou Wang Yi Zhou Yazhou Yao Jianwu Li Ling Shao

摘要

本文提出了一种新颖的运动感知过渡网络（Motion-Attentive Transition Network, MATNet），用于零样本视频对象分割（zero-shot video object segmentation），为利用运动信息增强时空对象表征提供了新思路。在双流编码器结构中，我们设计了一种非对称注意力模块——运动感知过渡（Motion-Attentive Transition, MAT），该模块在每个卷积阶段将外观特征转换为运动感知的表示形式。通过这一机制，编码器实现深层交织，使得对象运动与外观特征之间能够进行紧密的层级交互。相较于传统的双流架构（该架构在各流中独立处理运动与外观信息，易过度依赖外观特征而产生过拟合问题），本方法具有显著优势。此外，本文还提出了一种桥接网络（bridge network），用于融合多层级编码器特征，生成紧凑、具有判别性且对尺度敏感的特征表示，并将其输入解码器以实现最终的分割结果。在三个具有挑战性的公开基准数据集（DAVIS-16、FBMS 和 Youtube-Objects）上的大量实验表明，所提模型在性能上显著优于当前最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

运动感知的转换用于零样本视频对象分割 | 论文 | HyperAI超神经