3 个月前

自适应拆分-融合Transformer

自适应拆分-融合Transformer

摘要

近年来,用于视觉内容理解的神经网络已从传统的卷积神经网络(CNN)演进至基于Transformer的架构。前者依赖于小窗口卷积核捕捉局部区域特征,展现出优异的局部表达能力;而后者则通过建立局部区域间的长程全局关联,实现整体性学习。受二者互补特性的启发,学术界日益关注设计混合模型,以充分融合两类方法的优势。然而,现有的混合模型大多仅以线性投影的简单近似替代卷积操作,或简单地将卷积分支与注意力分支并列,未能充分考虑局部建模与全局建模的重要性。针对这一问题,本文提出一种新型混合架构——自适应分路融合Transformer(Adaptive Split-Fusion Transformer, ASF-former),通过自适应权重机制差异化地处理卷积分支与注意力分支。具体而言,ASF-former编码器将输入特征通道均分为两路,分别送入卷积分支与注意力分支;随后,利用视觉线索动态计算加权标量,对两路输出进行融合。同时,为兼顾计算效率,我们对卷积分支进行了紧凑化设计。在ImageNet-1K、CIFAR-10和CIFAR-100等标准基准上的大量实验表明,在相似计算复杂度(12.9G MACs / 56.7M 参数,无需大规模预训练)条件下,ASF-former在准确率上显著优于同类CNN、Transformer模型以及现有混合模型,其中在ImageNet-1K上达到83.9%的Top-1准确率。相关代码已开源,地址为:https://github.com/szx503045266/ASF-former。

代码仓库

szx503045266/asf-former
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-cifar-10ASF-former-S
Percentage correct: 98.7
image-classification-on-cifar-10ASF-former-B
Percentage correct: 98.8%
image-classification-on-cifar-10-imageASF-former-B
Params: 56.7M
image-classification-on-cifar-10-imageASF-former-S
Params: 19.3M
image-classification-on-imagenetASF-former-B
Number of params: 56.7M
Top 1 Accuracy: 83.9%
image-classification-on-imagenetASF-former-S
Number of params: 19.3M
Top 1 Accuracy: 82.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自适应拆分-融合Transformer | 论文 | HyperAI超神经