3 个月前

视觉Transformer中用于局部-全局交互的焦点自注意力机制

Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao

摘要

近年来，视觉Transformer（Vision Transformer）及其变体在多种计算机视觉任务中展现出巨大潜力。其通过自注意力机制捕捉短距离与长距离视觉依赖关系的能力，被认为是取得成功的主要原因。然而，这种机制也带来了二次方复杂度的计算开销，尤其在高分辨率视觉任务（如目标检测）中尤为显著。本文提出了一种新型机制——焦点自注意力（Focal Self-Attention），该机制能够同时建模细粒度的局部交互与粗粒度的全局交互。借助这一新机制，每个token在细粒度上关注其最近邻的周围token，而在粗粒度上关注远距离的token，从而高效且有效地捕捉短程与长程视觉依赖关系。基于焦点自注意力机制，我们提出了一种新的视觉Transformer变体——焦点Transformer（Focal Transformer），其在多个公开的图像分类与目标检测基准测试中均显著超越当前最先进的视觉Transformer模型。具体而言，我们提出的中等规模（51.1M参数）与较大规模（89.8M参数）的焦点Transformer模型，在224×224分辨率下于ImageNet图像分类任务上分别取得了83.5%和83.8%的Top-1准确率。以焦点Transformer作为主干网络，我们在六种不同的目标检测方法上，均在标准1x与3x训练调度下实现了持续且显著的性能提升，超越了当前最先进的Swin Transformer。其中，最大规模的焦点Transformer在COCO mini-val/test-dev数据集上分别达到58.7/58.9的box mAP与50.9/51.3的mask mAP，在ADE20K语义分割任务上实现55.4的mIoU，三项指标均刷新了当前最先进水平，成为三个最具挑战性计算机视觉任务的新标杆（SoTA）。

代码仓库

microsoft/esvit

pytorch

GitHub 中提及

BR-IDL/PaddleViT/tree/develop/image_classification/Focal_Transformer

paddle

microsoft/Focal-Transformer

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
instance-segmentation-on-coco	Focal-L (HTC++, multi-scale)	AP50: 75.4 AP75: 56.5 APL: 64.2 APS: 35.6 mask AP: 51.3
instance-segmentation-on-coco-minival	Focal-L (HTC++, multi-scale)	mask AP: 50.9
object-detection-on-coco	Focal-L (DyHead, multi-scale)	box mAP: 58.9
object-detection-on-coco-minival	Focal-L (DyHead, multi-scale)	AP50: 77.2 APL: 73.4 box AP: 58.7
semantic-segmentation-on-ade20k	Focal-L (UperNet, ImageNet-22k pretrain)	Validation mIoU: 55.40
semantic-segmentation-on-ade20k-val	Focal-L (UperNet, ImageNet-22k pretrain)	mIoU: 55.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供