3 个月前

焦点调制网络

焦点调制网络

摘要

我们提出了一种聚焦调制网络(FocalNets,简称FocalNets),其中自注意力机制(Self-Attention, SA)被完全替换为一种聚焦调制机制,用于建模视觉任务中的标记(token)间交互。该聚焦调制机制包含三个核心组件:(i) 分层上下文建模,通过堆叠深度可分离卷积层实现,用于从短距离到长距离逐步编码视觉上下文;(ii) 门控聚合,根据每个查询标记的内容,有选择性地聚合相关上下文信息;(iii) 元素级调制或仿射变换,将聚合后的上下文信息注入到查询标记中。大量实验表明,在图像分类、目标检测和语义分割等任务上,FocalNets在计算成本与当前最先进的自注意力模型(如Swin Transformer和Focal Transformer)相当的情况下,性能显著优于后者。具体而言,FocalNets在Tiny和Base两种规模下,在ImageNet-1K数据集上分别取得了82.3%和83.9%的Top-1准确率。在使用224×224分辨率在ImageNet-22K上预训练后,分别在224和384分辨率下微调时,Top-1准确率提升至86.5%和87.3%。在下游任务迁移中,FocalNets展现出明显优势:在Mask R-CNN框架下的目标检测任务中,使用1×训练策略的FocalNet Base模型相比Swin模型高出2.1个百分点(49.0 vs. 48.5),甚至超过了采用3×训练策略的Swin模型;在UPerNet框架下的语义分割任务中,FocalNet Base在单尺度设置下比Swin高出2.4个点,多尺度设置下也以50.5 vs. 49.7的成绩领先。进一步地,结合大型FocalNet与Mask2Former,我们在ADE20K语义分割任务上达到58.5 mIoU;在COCO全景分割任务上取得57.9 PQ。使用超大规模FocalNet与DINO框架,我们在COCO minival和test-dev测试集上分别达到64.3和64.4 mAP,超越了包括Swinv2-G和BEIT-3在内的更大规模基于注意力机制的模型,刷新了当前最先进(SoTA)性能纪录。代码与模型权重已开源,详见:https://github.com/microsoft/FocalNet。

基准测试

基准方法指标
object-detection-on-cocoFocalNet-H (DINO)
box mAP: 64.4
object-detection-on-coco-minivalFocalNet-H (DINO)
box AP: 64.2
object-detection-on-coco-minivalFocalNet-T (LRF, Cascade Mask R-CNN)
AP50: 70.3
AP75: 56.0
box AP: 51.5
object-detection-on-coco-minivalFocalNet-T (SRF, Cascade Mask R-CNN)
AP50: 70.1
AP75: 55.8
panoptic-segmentation-on-coco-minivalFocalNet-L (Mask2Former (200 queries))
AP: 48.4
PQ: 57.9
semantic-segmentation-on-ade20kFocalNet-L (Mask2Former)
Validation mIoU: 58.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
焦点调制网络 | 论文 | HyperAI超神经