8 个月前

摘要

现有的RGB-D显著物体检测（SOD）模型通常将RGB图像和深度信息视为独立的信息源，并设计单独的网络来从每种模态中提取特征。这种方案容易受到有限训练数据量或对精心设计的训练过程过度依赖的限制。受观察到的RGB和深度模态在区分显著物体时存在一定程度共性的启发，我们设计了一种新颖的联合学习与密集协作融合（JL-DCF）架构，通过共享网络主干（即Siamese架构）从RGB和深度输入中进行学习。本文提出了两个有效的组件：联合学习（JL）和密集协作融合（DCF）。JL模块通过Siamese网络利用跨模态共性，提供鲁棒的显著性特征学习；而DCF模块则用于发现互补特征。使用五种流行指标进行的全面实验表明，所设计的框架能够生成一个具有良好泛化的鲁棒RGB-D显著性检测器。结果表明，JL-DCF在七个具有挑战性的数据集上平均提升了约2.0%的最大F值（max F-measure），显著超越了现有最先进模型。此外，我们展示了JL-DCF可以轻松应用于其他相关的多模态检测任务，如RGB-T（热红外）SOD和视频SOD，在这些任务中其性能可与最先进方法相媲美甚至更优。我们还探讨了JL-DCF在RGB-D语义分割领域的应用，结果显示其在RGB-D SOD任务上的表现优于几种语义分割模型。这些事实进一步证实了所提出的框架为各种应用提供了潜在解决方案，并为跨模态互补任务提供了更多见解。

源 PDF