
摘要
本文针对场景分割任务,通过自注意力机制捕捉丰富的上下文依赖关系。与以往通过多尺度特征融合来捕捉上下文的方法不同,我们提出了一种双注意力网络(Dual Attention Networks,简称DANet),以自适应地将局部特征与其全局依赖关系进行整合。具体而言,我们在传统的空洞全卷积网络(dilated FCN)基础上添加了两种类型的注意力模块,分别在空间维度和通道维度建模语义互依赖关系。位置注意力模块通过所有位置特征的加权和选择性地聚合每个位置的特征,使得相似的特征无论其距离远近都能相互关联。同时,通道注意力模块通过整合所有通道图之间的相关特征,选择性地强调互依赖的通道图。我们将两个注意力模块的输出相加,进一步提升特征表示的质量,从而获得更精确的分割结果。我们在三个具有挑战性的场景分割数据集上实现了最新的分割性能:Cityscapes、PASCAL Context 和 COCO Stuff 数据集。特别是,在不使用粗略数据的情况下,我们在Cityscapes测试集上达到了81.5%的平均交并比(Mean IoU)得分。我们已将代码和训练好的模型公开发布在 https://github.com/junfu1115/DANet 上。
代码仓库
PaddlePaddle/PaddleSeg
paddle
zhenxingsh/Pytorch_DANet
pytorch
GitHub 中提及
junfu1115/DANet
官方
pytorch
GitHub 中提及
hbzhang/AwesomeSelfDriving
GitHub 中提及
niecongchong/danet-keras
tf
GitHub 中提及
osmr/imgclsmob
mxnet
GitHub 中提及
yougoforward/hlzhu_DANet_git
pytorch
GitHub 中提及
open-mmlab/mmsegmentation
pytorch
xmu-xiaoma666/External-Attention-pytorch
pytorch
GitHub 中提及
yiskw713/DualAttention_for_Segmentation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-bdd100k-val | DANet | mIoU: 62.8 |
| semantic-segmentation-on-cityscapes | DANet (ResNet-101) | Mean IoU (class): 81.5% |
| semantic-segmentation-on-coco-stuff-test | DANet (ResNet-101) | mIoU: 39.7% |
| semantic-segmentation-on-dada-seg | DANet | mIoU: 22.24 |
| semantic-segmentation-on-densepass | DANet (ResNet-101) | mIoU: 28.5% |
| semantic-segmentation-on-pascal-context | DANet (ResNet-101) | mIoU: 52.6 |
| semantic-segmentation-on-pascal-voc-2012 | DANet (ResNet-101) | Mean IoU: 82.6% |
| semantic-segmentation-on-trans10k | DANet | GFLOPs: 198.00 mIoU: 68.81% |
| thermal-image-segmentation-on-mfn-dataset | DANet | mIOU: 41.3 |