4 个月前

自监督模型适应用于多模态语义分割

自监督模型适应用于多模态语义分割

摘要

可靠地感知和理解场景是机器人在现实世界中操作的重要前提。这一问题本质上具有挑战性,因为存在多种物体类型以及由不同光照和天气条件引起的外观变化。利用互补模态可以学习到更加丰富且对这些扰动具有鲁棒性的语义表示。尽管近年来取得了巨大进展,但大多数多模态卷积神经网络方法直接将各模态流的特征图拼接在一起,导致模型无法仅关注相关互补信息进行融合。为了解决这一局限性,我们提出了一种多模态语义分割框架,该框架能够自监督地动态适应特定模态特征的融合,并对物体类别、空间位置和场景上下文敏感。具体而言,我们设计了一种包含两个特定模态编码器流的架构,通过我们提出的自监督模型适应融合机制将中间编码器表示融合到单个解码器中,从而最优地结合互补特征。由于中间表示在不同模态之间未对齐,我们引入了一种注意力机制以提高相关性。此外,我们还提出了一种计算效率高的单模态分割架构——AdapNet++,该架构集成了新的多尺度残差单元编码器和高效的空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP),其有效感受野更大且参数量减少了10倍以上,并配有一个强大的解码器及多分辨率监督方案以恢复高分辨率细节。在多个基准数据集上的全面实证评估表明,我们的单模态和多模态架构均达到了当前最佳性能。

代码仓库

DeepSceneSeg/SSMA
tf
GitHub 中提及

基准测试

基准方法指标
scene-recognition-on-scannetSSMA
Average Recall: 54.28
semantic-segmentation-on-cityscapesAdapNet++
Mean IoU (class): 81.24%
semantic-segmentation-on-cityscapesSSMA
Mean IoU (class): 82.3%
semantic-segmentation-on-freiburg-forestAdapNet++
Mean IoU: 83.09
semantic-segmentation-on-freiburg-forestSSMA
Mean IoU: 84.18
semantic-segmentation-on-scannetv2AdapNet++
Mean IoU: 50.3
semantic-segmentation-on-scannetv2SSMA
Mean IoU: 57.7
semantic-segmentation-on-sun-rgbdDPLNet
Mean IoU: 38.4
semantic-segmentation-on-sun-rgbdTokenFusion (S)
Mean IoU: 45.73
semantic-segmentation-on-synthia-cvpr16AdapNet++
Mean IoU: 87.87
semantic-segmentation-on-synthia-cvpr16SSMA
Mean IoU: 92.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自监督模型适应用于多模态语义分割 | 论文 | HyperAI超神经