3 个月前

ViTAE:通过探索内在归纳偏置提升视觉Transformer

ViTAE:通过探索内在归纳偏置提升视觉Transformer

摘要

得益于自注意力机制在建模长程依赖方面的强大能力,Transformer 在各类计算机视觉任务中展现出巨大潜力。然而,现有的视觉Transformer将图像视为一维的视觉标记序列,缺乏对局部视觉结构建模的内在归纳偏置(Inductive Bias, IB),且难以有效应对尺度变化问题。为弥补这一不足,现有方法通常依赖大规模训练数据和更长的训练周期,以隐式方式学习归纳偏置。本文提出一种新型视觉Transformer——ViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions),通过显式引入卷积带来的内在归纳偏置,显著提升模型性能。技术上,ViTAE设计了多个空间金字塔下采样模块,利用具有不同膨胀率(dilation rates)的多层卷积,将输入图像高效下采样并嵌入富含多尺度上下文信息的视觉标记中。这一机制赋予模型内在的尺度不变性归纳偏置,使其能够有效学习不同尺度下物体的鲁棒特征表示。此外,在每一Transformer层中,ViTAE在多头自注意力模块之外并行引入一个卷积模块,其输出特征与自注意力特征融合后输入前馈网络。该设计使模型具备内在的局部性归纳偏置,从而能够协同学习局部细节与全局依赖关系。在ImageNet基准以及多个下游任务上的实验结果表明,ViTAE在性能上显著优于基线Transformer模型及现有同类方法。相关源代码与预训练模型将开源发布于GitHub。

代码仓库

Annbless/ViTAE
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetViTAE-T
GFLOPs: 3.0
Top 1 Accuracy: 75.3%
image-classification-on-imagenetViTAE-13M
GFLOPs: 6.8
Number of params: 13.2M
Top 1 Accuracy: 81%
image-classification-on-imagenetViTAE-T-Stage
GFLOPs: 4.6
Number of params: 4.8M
Top 1 Accuracy: 76.8%
image-classification-on-imagenetViTAE-6M
GFLOPs: 4
Number of params: 6.5M
Top 1 Accuracy: 77.9%
image-classification-on-imagenetViTAE-S-Stage
GFLOPs: 12.0
Number of params: 19.2M
Top 1 Accuracy: 82.2%
image-classification-on-imagenetViTAE-B-Stage
GFLOPs: 27.6
Number of params: 48.5M
Top 1 Accuracy: 83.6%
video-object-segmentation-on-davis-2016ViTAE-T-Stage
F-Score: 90.4
Ju0026F: 89.8
Jaccard (Mean): 89.2
video-object-segmentation-on-davis-2017ViTAE-T-Stage
F-Score: 85.5
Ju0026F: 82.5
Jaccard (Mean): 79.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViTAE:通过探索内在归纳偏置提升视觉Transformer | 论文 | HyperAI超神经