
摘要
变压器在视觉任务中的兴起不仅推动了网络骨干设计的进步,还开启了一个全新的篇章,实现了端到端的图像识别(例如,目标检测和全景分割)。变压器架构起源于自然语言处理(NLP),由自注意力机制和交叉注意力机制组成,能够有效地学习序列中元素之间的长距离交互。然而,我们观察到大多数现有的基于变压器的视觉模型简单地借鉴了NLP的思想,忽视了语言和图像之间的重要差异,特别是空间展平像素特征的极长序列长度。这随后阻碍了像素特征与对象查询之间的交叉注意力学习。在本文中,我们重新思考了像素与对象查询之间的关系,并提出将交叉注意力学习重新表述为一个聚类过程。受传统k均值聚类算法的启发,我们开发了一种用于分割任务的k均值掩码变换器(kMaX-DeepLab),该方法不仅提升了现有技术水平,还具有简洁优雅的设计。因此,我们的kMaX-DeepLab在COCO验证集上取得了58.0%的PQ,在Cityscapes验证集上取得了68.4%的PQ、44.0%的AP和83.5%的mIoU,在ADE20K验证集上取得了50.9%的PQ和55.2%的mIoU,这些成绩均未使用测试时增强或外部数据集。我们希望这项工作能够为设计专门针对视觉任务的变压器提供一些启示。TensorFlow代码和模型可在https://github.com/google-research/deeplab2 获取,PyTorch版本的实现也可在https://github.com/bytedance/kmax-deeplab 获取。
代码仓库
cy-xu/spatially_aware_ai
pytorch
GitHub 中提及
bytedance/kmax-deeplab
官方
pytorch
GitHub 中提及
google-research/deeplab2
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-segmentation-on-ade20k-val | kMaX-DeepLab (ResNet50, single-scale, 1281x1281) | AP: - PQ: 42.3 mIoU: 45.3 |
| panoptic-segmentation-on-ade20k-val | kMaX-DeepLab (ConvNeXt-L, single-scale, 1281x1281) | AP: - PQ: 50.9 mIoU: 55.2 |
| panoptic-segmentation-on-ade20k-val | kMaX-DeepLab (ConvNeXt-L, single-scale, 641x641) | AP: - PQ: 48.7 mIoU: 54.8 |
| panoptic-segmentation-on-ade20k-val | kMaX-DeepLab (ResNet50, single-scale, 641x641) | AP: - PQ: 41.5 mIoU: 45.0 |
| panoptic-segmentation-on-cityscapes-test | kMaX-DeepLab (single-scale) | PQ: 66.2 |
| panoptic-segmentation-on-cityscapes-val | kMaX-DeepLab (single-scale) | AP: 44.0 PQ: 68.4 mIoU: 83.5 |
| panoptic-segmentation-on-coco-minival | kMaX-DeepLab (single-scale, drop query with 256 queries) | PQ: 58.0 PQst: 48.6 PQth: 64.2 |
| panoptic-segmentation-on-coco-minival | kMaX-DeepLab (single-scale, pseudo-labels) | PQ: 58.1 PQst: 48.8 PQth: 64.3 |
| panoptic-segmentation-on-coco-minival | kMaX-DeepLab (single-scale) | PQ: 57.9 PQst: 48.6 PQth: 64.0 |
| panoptic-segmentation-on-coco-test-dev | kMaX-DeepLab (single-scale) | PQ: 58.5 PQst: 49.0 PQth: 64.8 |
| semantic-segmentation-on-cityscapes | kMaX-DeepLab (ConvNeXt-L, fine only) | Mean IoU (class): 83.2% |