4 个月前

多源融合与零样本视频对象分割中的自动预测器选择

多源融合与零样本视频对象分割中的自动预测器选择

摘要

位置和外观是视频对象分割的关键线索。许多数据源,如RGB图像、深度图、光流和静态显著性图,可以提供有关对象的有用信息。然而,现有的方法仅利用了RGB图像或RGB图像与光流的组合。在本文中,我们提出了一种新颖的多源融合网络用于零样本视频对象分割。借助内感受空间注意力模块(Interoceptive Spatial Attention Module, ISAM),每个数据源的空间重要性得到了突出。此外,我们设计了一个特征净化模块(Feature Purification Module, FPM),以过滤不同来源之间的不兼容特征。通过ISAM和FPM,多源特征得以有效融合。另外,我们提出了一种自动预测器选择网络(Automatic Predictor Selection Network, APS),以选择静态显著性预测器或运动对象预测器中的更优预测结果,从而防止因低质量光流图导致的结果过度依赖问题。在三个具有挑战性的公开基准数据集(即DAVIS$_{16}$、YouTube-Objects和FBMS)上进行的大量实验表明,所提出的模型在性能上优于现有最先进方法。源代码将在\textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}公开发布。

代码仓库

xiaoqi-zhao-dlut/multi-source-aps-zvos
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-object-segmentation-on-fbmsours
Jaccard (Mean): 76.7
video-object-segmentation-on-youtube-1Ours
Average: 74.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多源融合与零样本视频对象分割中的自动预测器选择 | 论文 | HyperAI超神经