3 个月前

基于多模态注意力机制的RGB-Depth图像语义分割模型

基于多模态注意力机制的RGB-Depth图像语义分割模型

摘要

三维场景理解在计算机视觉与机器人应用中被视为一项关键需求。三维场景理解中的高层次任务之一是RGB-D图像的语义分割。随着RGB-D相机的普及,通过结合深度信息与外观特征,有望提升场景理解的准确性。由于深度图像不受光照条件影响,其可与RGB图像协同提升语义标注的质量。综合考虑两种模态的共性特征与特异性特征,有助于进一步提升语义分割的性能。然而,RGB-D语义分割面临的一个核心挑战是如何高效融合或结合这两种模态,以充分发挥各自优势,同时保持计算效率。近年来,基于深度卷积神经网络的方法通过早期融合、晚期融合及中间融合等策略,已取得当前最先进的性能。本文提出一种高效的编码器-解码器架构,引入基于注意力机制的融合模块,用于建模两种模态特征图之间的相互影响。该模块显式地提取两种模态拼接后特征图之间的相互依赖关系,从而从RGB-D图像中挖掘出更具表达能力的特征。在NYU-V2、SUN RGB-D以及Stanford 2D-3D-Semantic三个主流且具有挑战性的数据集上进行的大量实验表明,所提出的网络在保持较低计算成本与较小模型规模的前提下,性能优于现有最先进模型。实验结果进一步验证了所提出的轻量化注意力融合机制在精度方面的有效性。

基准测试

基准方法指标
semantic-segmentation-on-nyu-depth-v2MMAF-Net-152
Mean IoU: 44.8%
semantic-segmentation-on-stanford2d3d-rgbdMMAF-Net-152
Pixel Accuracy: 76.5
mAcc: 62.3
mIoU: 52.9
semantic-segmentation-on-sun-rgbdFSFNet
Mean IoU: 47.0%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多模态注意力机制的RGB-Depth图像语义分割模型 | 论文 | HyperAI超神经