
摘要
近年来,RGB-D显著目标检测(SOD)引起了越来越多的研究关注,基于编码器-解码器架构的深度学习方法相继涌现。然而,大多数现有的RGB-D SOD模型仅在编码器或解码器阶段进行特征融合,难以保证充分的跨模态融合能力。本文首次尝试通过三维卷积神经网络(3D CNN)解决RGB-D SOD问题。所提出的模型名为RD3D,旨在编码器阶段实现前置融合,并在解码器阶段实现深度特征融合,以有效促进RGB与深度通道之间的全面整合。具体而言,RD3D首先通过一个扩展的3D编码器对RGB与深度模态进行前置融合;随后,设计了一种配备丰富反投影路径(Rich Back-Projection Paths, RBPP)的3D解码器,充分利用3D卷积的广泛聚合能力,实现深层次的特征融合。这种结合编码器与解码器的渐进式融合策略,能够充分挖掘双模态之间的有效且深入的交互,显著提升检测精度。在六个广泛使用的基准数据集上的大量实验表明,RD3D在四个关键评估指标上均优于14种当前最先进的RGB-D SOD方法。相关代码将公开发布:https://github.com/PPOLYpubki/RD3D。
代码仓库
PPOLYpubki/RD3D
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| thermal-image-segmentation-on-rgb-t-glass | RD3D | MAE: 0.045 |