
摘要
近年来,视觉Transformer(Vision Transformer)及其变体在多种计算机视觉任务中展现出巨大潜力。其通过自注意力机制捕捉短距离与长距离视觉依赖关系的能力,被认为是取得成功的主要原因。然而,这种机制也带来了二次方复杂度的计算开销,尤其在高分辨率视觉任务(如目标检测)中尤为显著。本文提出了一种新型机制——焦点自注意力(Focal Self-Attention),该机制能够同时建模细粒度的局部交互与粗粒度的全局交互。借助这一新机制,每个token在细粒度上关注其最近邻的周围token,而在粗粒度上关注远距离的token,从而高效且有效地捕捉短程与长程视觉依赖关系。基于焦点自注意力机制,我们提出了一种新的视觉Transformer变体——焦点Transformer(Focal Transformer),其在多个公开的图像分类与目标检测基准测试中均显著超越当前最先进的视觉Transformer模型。具体而言,我们提出的中等规模(51.1M参数)与较大规模(89.8M参数)的焦点Transformer模型,在224×224分辨率下于ImageNet图像分类任务上分别取得了83.5%和83.8%的Top-1准确率。以焦点Transformer作为主干网络,我们在六种不同的目标检测方法上,均在标准1x与3x训练调度下实现了持续且显著的性能提升,超越了当前最先进的Swin Transformer。其中,最大规模的焦点Transformer在COCO mini-val/test-dev数据集上分别达到58.7/58.9的box mAP与50.9/51.3的mask mAP,在ADE20K语义分割任务上实现55.4的mIoU,三项指标均刷新了当前最先进水平,成为三个最具挑战性计算机视觉任务的新标杆(SoTA)。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| instance-segmentation-on-coco | Focal-L (HTC++, multi-scale) | AP50: 75.4 AP75: 56.5 APL: 64.2 APS: 35.6 mask AP: 51.3 |
| instance-segmentation-on-coco-minival | Focal-L (HTC++, multi-scale) | mask AP: 50.9 |
| object-detection-on-coco | Focal-L (DyHead, multi-scale) | box mAP: 58.9 |
| object-detection-on-coco-minival | Focal-L (DyHead, multi-scale) | AP50: 77.2 APL: 73.4 box AP: 58.7 |
| semantic-segmentation-on-ade20k | Focal-L (UperNet, ImageNet-22k pretrain) | Validation mIoU: 55.40 |
| semantic-segmentation-on-ade20k-val | Focal-L (UperNet, ImageNet-22k pretrain) | mIoU: 55.4 |