4 个月前

任意模态语义分割

任意模态语义分割

摘要

多模态融合可以使语义分割更加鲁棒。然而,融合任意数量的模态仍然是一个未充分探索的问题。为了深入研究这一问题,我们创建了DeLiVER任意模态分割基准数据集,涵盖了深度(Depth)、激光雷达(LiDAR)、多视图(multiple Views)、事件(Events)和RGB图像。此外,我们还提供了四种恶劣天气条件和五种传感器故障情况下的数据集,以利用模态互补性和解决部分故障问题。为实现这一目标,我们提出了任意跨模态分割模型CMNeXt。该模型包含一个自查询中心(Self-Query Hub, SQ-Hub),旨在从任何模态中提取有效信息,以便后续与RGB表示进行融合,并且每增加一种模态仅需添加微不足道的参数量(约0.01M)。此外,为了高效灵活地从辅助模态中获取判别特征,我们引入了一种简单的并行池化混合器(Parallel Pooling Mixer, PPX)。通过在总共六个基准数据集上的广泛实验,我们的CMNeXt在DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS数据集上均取得了最先进的性能,支持从1到81个模态的扩展。在新收集的DeLiVER数据集中,四模态CMNeXt达到了66.30%的mIoU值,相比单模态基线提高了9.10%。DeLiVER数据集和我们的代码可访问:https://jamycheung.github.io/DELIVER.html。

代码仓库

jamycheung/DELIVER
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-bjroadCMNeXt
IoU: 63.22
semantic-segmentation-on-ddd17CMNeXt
mIoU: 72.67
semantic-segmentation-on-deliverCMNeXt (RGB-D-E-LiDAR)
mIoU: 66.30
semantic-segmentation-on-deliver-1CMNeXt (RGB-D-Event)
mIoU: 64.44
semantic-segmentation-on-deliver-1CMNeXt (RGB-LiDAR)
mIoU: 58.04
semantic-segmentation-on-deliver-1CMNeXt (RGB-D-LiDAR)
mIoU: 65.50
semantic-segmentation-on-deliver-1CMNeXt (RGB-Event)
mIoU: 57.48
semantic-segmentation-on-deliver-1CMNeXt (RGB-Depth)
mIoU: 63.58
semantic-segmentation-on-deliver-1CMNeXt (RGB-D-E-LiDAR)
mIoU: 66.30
semantic-segmentation-on-dsecCMNeXt
mIoU: 72.54
semantic-segmentation-on-kitti-360CMNeXt (RGB-D-E-LiDAR)
mIoU: 67.84
semantic-segmentation-on-mcubesCMNeXt (B2 RGB-A-D-N)
mIoU: 51.54%
semantic-segmentation-on-mcubesCMNeXt (B2 RGB-A-D)
mIoU: 49.48%
semantic-segmentation-on-mcubesCMNeXt (B2 RGB-A)
mIoU: 48.42%
semantic-segmentation-on-mcubes-pCMNeXt (B2 RGB-A)
mIoU: 48.42
semantic-segmentation-on-mcubes-pCMNeXt (B2 RGB-A-D)
mIoU: 49.48
semantic-segmentation-on-nyu-depth-v2CMNeXt (B4)
Mean IoU: 56.9%
semantic-segmentation-on-portoCMNeXt
IoU: 73.12
semantic-segmentation-on-tlcgisCMNeXt
IoU: 82.26
semantic-segmentation-on-urbanlfCMNeXt (RGB-LF33)
mIoU (Real): 82.62
mIoU (Syn): 80.98
semantic-segmentation-on-urbanlfCMNeXt (RGB-LF8)
mIoU (Real): 83.22
mIoU (Syn): 80.74
semantic-segmentation-on-urbanlfCMNeXt (RGB-LF80)
mIoU (Real): 83.11
mIoU (Syn): 81.02
thermal-image-segmentation-on-mfn-datasetCMNeXt (B4)
mIOU: 59.9
thermal-image-segmentation-on-noisy-rs-rgb-tCMNeXt (B4)
mIoU: 60.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
任意模态语义分割 | 论文 | HyperAI超神经