4 个月前

CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络

CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络

摘要

语义分割作为复杂视觉解释的关键组成部分,在自动驾驶车辆视觉系统中发挥着基础性作用。近期的研究通过利用互补信息和开发多模态方法,显著提高了语义分割的准确性。然而,尽管在准确性方面取得了进展,多模态语义分割方法仍面临计算复杂度高和推理速度低的问题。因此,在驾驶应用中实现多模态方法是一项具有挑战性的任务。为了解决这一问题,我们提出了一种实时RGB-X语义分割模型——余弦相似度融合网络(Cosine Similarity Fusion Network, CSFNet)。具体而言,我们设计了一个余弦相似度注意力融合模块(Cosine Similarity Attention Fusion Module, CS-AFM),该模块能够有效地校正和融合两种模态的特征。CS-AFM模块利用跨模态相似性来实现较高的泛化能力。通过增强较低层次的跨模态特征融合,CS-AFM为较高层次使用单分支网络铺平了道路。因此,我们在编码器中采用了双分支和单分支架构,并结合高效的上下文模块和轻量级解码器以实现快速而准确的预测。为了验证CSFNet的有效性,我们使用Cityscapes、MFNet和ZJU数据集进行了RGB-D/T/P语义分割实验。根据实验结果,CSFNet在准确性方面与现有最先进方法相当,同时在多模态语义分割模型的速度方面处于领先地位。此外,由于其参数数量少和计算复杂度低,CSFNet还实现了高效率。CSFNet的源代码将在https://github.com/Danial-Qashqai/CSFNet上提供。

代码仓库

基准测试

基准方法指标
real-time-semantic-segmentation-on-cityscapes-1CSFNet-1
Frame (fps): 106.1
mIoU: 74.73
real-time-semantic-segmentation-on-cityscapes-1CSFNet-2
Frame (fps): 72.3 (3090)
mIoU: 76.36
semantic-segmentation-on-cityscapes-valCSFNet-2
FPS: 72.3 (3090)
mIoU: 76.36
semantic-segmentation-on-cityscapes-valCSFNet-1
FPS: 106.1 (3090)
mIoU: 74.73
semantic-segmentation-on-zju-rgb-pCSFNet-2
Frame (fps): 75 (3090)
mIoU: 91.40
semantic-segmentation-on-zju-rgb-pCSFNet-1
Frame (fps): 108.5
mIoU: 90.85
thermal-image-segmentation-on-mfn-datasetCSFNet-2
Frame (fps): 72.7 (3090)
mIOU: 59.98
thermal-image-segmentation-on-mfn-datasetCSFNet-1
Frame (fps): 106.3 (3090)
mIOU: 56.05

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络 | 论文 | HyperAI超神经