3 个月前

基于分离与聚合门的双向跨模态特征传播用于RGB-D语义分割

基于分离与聚合门的双向跨模态特征传播用于RGB-D语义分割

摘要

深度信息在RGB-D图像的语义分割中已被证明是一种有效的视觉线索,能够为RGB图像提供几何层面的补充信息。现有大多数方法通常假设深度测量值是准确且与RGB像素严格对齐的,并将该问题建模为跨模态特征融合,以获得更优的特征表示,从而实现更精确的分割。然而,这种假设在实际应用中往往难以成立,因为真实场景下的深度数据通常存在噪声,随着网络深度的增加,这些噪声可能进一步损害模型的分割性能。本文提出了一种统一且高效的跨模态引导编码器(Cross-modality Guided Encoder),不仅能有效校准RGB特征响应,还能通过多阶段机制提炼出更精确的深度信息,并在两个校准后的表示之间进行交替聚合。该架构的核心是一种新颖的“分离-聚合门控”(Separation-and-Aggregation Gating)操作,该操作在跨模态融合前联合完成对两种模态特征的过滤与重新校准。同时,本文引入了双向多步传播策略(Bi-direction Multi-step Propagation),一方面促进两种模态间的信息传播与融合,另一方面在长时间传播过程中有效保留各自模态的特异性。此外,所提出的编码器可无缝集成至现有的编码器-解码器结构中,显著提升其在RGB-D语义分割任务上的性能表现。在多个室内与室外具有挑战性的数据集上,本方法均持续优于当前最先进的技术水平。本工作的代码已开源,可访问:https://charlescxk.github.io/

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于分离与聚合门的双向跨模态特征传播用于RGB-D语义分割 | 论文 | HyperAI超神经