3 个月前

通过对比多模态观测理解暗光场景

通过对比多模态观测理解暗光场景

摘要

基于多模态图像数据理解暗光场景具有挑战性,因为可见光模态与辅助模态均提供的语义信息有限。以往方法主要关注两种模态的融合,但在最小化损失以实现像素与标签对齐的过程中,忽略了语义类别之间的相关性,导致类别预测不准确。为解决上述问题,本文提出一种监督式多模态对比学习方法,通过联合执行跨模态与模态内对比学习,在类别相关性的监督下增强所学多模态特征空间的语义区分能力。跨模态对比学习促使来自不同模态但属于同一类别的嵌入向量相互靠近,而不同类别的嵌入则被推离;模态内对比学习则要求同一类别或不同类别的嵌入在各自模态内部保持聚集或分离。我们在涵盖多种光照条件与图像模态的多个任务上验证了所提方法的有效性。实验结果表明,该方法能够通过构建具有语义区分性的特征空间,显著提升在语义信息有限的多模态图像基础上对暗光场景的理解能力。与现有方法相比,本方法取得了当前最优的性能表现。代码与预训练模型已开源,地址为:https://github.com/palmdong/SMMCL。

代码仓库

palmdong/smmcl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-llrgbd-syntheticSMMCL (SegFormer-B2)
mIoU: 67.77
semantic-segmentation-on-llrgbd-syntheticSMMCL (SegNeXt-B)
mIoU: 68.76
semantic-segmentation-on-llrgbd-syntheticSMMCL (ResNet-101)
mIoU: 64.40
semantic-segmentation-on-nyu-depth-v2SMMCL (ResNet-101)
Mean IoU: 52.5%
semantic-segmentation-on-nyu-depth-v2SMMCL (SegNeXt-B)
Mean IoU: 55.8%
semantic-segmentation-on-nyu-depth-v2SMMCL (SegFormer-B2)
Mean IoU: 53.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过对比多模态观测理解暗光场景 | 论文 | HyperAI超神经