6 个月前

摘要

基于RGB与深度图像的显著性目标检测（Salient Object Detection, SOD）近年来受到越来越多研究关注，这主要得益于其在实际应用中的高效性，以及当前深度信息可便捷获取的技术背景。现有RGB-D SOD模型通常采用不同的融合策略，从RGB图像和深度图像两种模态中学习共享表征，但鲜有方法显式考虑如何保留各模态特有的特征信息。为此，本文提出一种新颖的框架——SPNet（保特异性网络），通过同时挖掘模态间的共享信息与各模态特有的属性（如特异性）来提升显著性检测性能。具体而言，SPNet设计了两个模态特异性网络与一个共享学习网络，分别生成各自模态的显著性预测图与共享的显著性预测图。为在共享学习网络中高效融合跨模态特征，我们提出一种交叉增强融合模块（Cross-enhanced Integration Module, CIM），并将其融合后的特征传递至下一层，以实现跨层级信息的整合。此外，为进一步捕捉丰富且互补的多模态信息以提升SOD性能，我们引入多模态特征聚合模块（Multi-modal Feature Aggregation, MFA），将各独立解码器输出的模态特异性特征有效整合至共享解码器中。通过跳跃连接（skip connection），编码器与解码器各层级之间的层次化特征得以充分融合。大量实验结果表明，所提出的SPNet在六个主流RGB-D显著性检测数据集以及三个伪装目标检测基准上均优于当前最先进的方法。项目代码已公开，访问地址为：https://github.com/taozh2017/SPNet。

源 PDF