8 个月前

摘要

多模态图像融合与分割在自动驾驶和机器人操作中发挥着至关重要的作用。早期的研究主要集中在提升单一任务（如融合或分割）的性能上，这使得难以实现“两全其美”。为了解决这一问题，本文提出了一种用于图像融合与分割的多交互特征学习架构，即SegMiF，并利用双任务相关性来促进两个任务的性能。SegMiF采用级联结构，包含一个融合子网络和一个常用的分割子网络。通过巧妙地连接两个组件之间的中间特征，从分割任务中学到的知识可以有效地辅助融合任务。同时，受益的融合网络支持分割网络更加出色地执行任务。此外，建立了一个分层交互注意力模块，以确保两个任务之间所有重要信息的细粒度映射，从而使模态/语义特征能够充分互作。另外，引入了一个动态权重因子来自动调整每个任务的相应权重，这可以平衡交互特征对应关系并突破繁琐调参的限制。进一步地，我们构建了一个智能多波段双目成像系统，并收集了一个涵盖15个像素级标注类别的全天候多模态基准数据集，用于图像融合与分割。在多个公开数据集和我们的基准数据集上的大量实验表明，所提出的方法生成了视觉效果良好的融合图像，并且在真实场景中的平均分割mIoU比现有最先进方法高出7.66%。源代码和基准数据集可在以下网址获取：\url{https://github.com/JinyuanLiu-CV/SegMiF}。

源 PDF