3 个月前

F2Net:学习聚焦前景以实现无监督视频对象分割

F2Net:学习聚焦前景以实现无监督视频对象分割

摘要

尽管基于深度学习的方法在无监督视频对象分割任务中取得了显著进展,但在视觉相似性、遮挡以及外观变化等复杂场景下仍面临挑战。为缓解上述问题,本文提出一种新型的前景聚焦网络(Focus on Foreground Network, F2Net),通过深入挖掘前景对象在帧内与帧间的一致性细节,显著提升分割性能。具体而言,所提出的F2Net由三个核心模块构成:孪生编码模块(Siamese Encoder Module)、中心引导外观扩散模块(Center Guiding Appearance Diffusion Module)以及动态信息融合模块(Dynamic Information Fusion Module)。首先,采用孪生编码结构对成对帧(参考帧与当前帧)进行特征提取,以获得两帧间的初步特征表示。随后,设计了中心引导外观扩散模块,用于捕捉三类关键特征:帧间特征(即参考帧与当前帧之间的密集对应关系)、帧内特征(当前帧内部的密集对应关系)以及当前帧的原始语义特征。为增强特征提取的聚焦能力,我们引入一个中心点预测分支,用于预测当前帧中前景对象的中心位置,并将该中心点信息作为空间引导先验,有效指导帧间与帧内特征的提取过程,从而使特征表示更加集中于前景对象区域。最后,提出动态信息融合模块,通过自适应地融合上述三个层次的特征,自动选择更具判别性的特征表示。在DAVIS2016、YouTube-Object和FBMS等多个公开数据集上的大量实验结果表明,所提出的F2Net在各项指标上均达到当前最优性能,显著优于现有方法。

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
F2Net:学习聚焦前景以实现无监督视频对象分割 | 论文 | HyperAI超神经