4 个月前

CCNet: 用于语义分割的交叉注意力机制

CCNet: 用于语义分割的交叉注意力机制

摘要

上下文信息在视觉理解问题中至关重要,例如语义分割和目标检测。我们提出了一种交叉网络(Criss-Cross Network, CCNet),以非常高效和有效的方式获取全图像的上下文信息。具体而言,对于每个像素,一种新颖的交叉注意力模块收集其交叉路径上所有像素的上下文信息。通过进一步的递归操作,每个像素最终可以捕捉到全图像的依赖关系。此外,我们还提出了一种类别一致性损失,以增强交叉注意力模块生成更具区分性的特征的能力。总体而言,CCNet具有以下优点:1)对GPU内存友好。与非局部块相比,所提出的递归交叉注意力模块所需的GPU内存使用量减少了11倍。2)计算效率高。递归交叉注意力显著降低了约85%的非局部块的浮点运算次数(FLOPs)。3)最先进的性能。我们在多个语义分割基准数据集上进行了广泛的实验,包括Cityscapes、ADE20K、人体解析基准LIP、实例分割基准COCO以及视频分割基准CamVid。特别是,我们的CCNet在Cityscapes测试集、ADE20K验证集和LIP验证集上分别达到了81.9%、45.76%和55.47%的mIoU分数,这些结果均为新的最先进水平。源代码可在\url{https://github.com/speedinghzl/CCNet}获取。

基准测试

基准方法指标
semantic-segmentation-on-cityscapesCCNet
Mean IoU (class): 81.4%
semantic-segmentation-on-foodseg103CCNet (ResNet-50)
mIoU: 35.5
thermal-image-segmentation-on-mfn-datasetCCNet
mIOU: 43.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CCNet: 用于语义分割的交叉注意力机制 | 论文 | HyperAI超神经