
摘要
近年来,用于视觉内容理解的神经网络已从传统的卷积神经网络(CNN)演进至基于Transformer的架构。前者依赖于小窗口卷积核捕捉局部区域特征,展现出优异的局部表达能力;而后者则通过建立局部区域间的长程全局关联,实现整体性学习。受二者互补特性的启发,学术界日益关注设计混合模型,以充分融合两类方法的优势。然而,现有的混合模型大多仅以线性投影的简单近似替代卷积操作,或简单地将卷积分支与注意力分支并列,未能充分考虑局部建模与全局建模的重要性。针对这一问题,本文提出一种新型混合架构——自适应分路融合Transformer(Adaptive Split-Fusion Transformer, ASF-former),通过自适应权重机制差异化地处理卷积分支与注意力分支。具体而言,ASF-former编码器将输入特征通道均分为两路,分别送入卷积分支与注意力分支;随后,利用视觉线索动态计算加权标量,对两路输出进行融合。同时,为兼顾计算效率,我们对卷积分支进行了紧凑化设计。在ImageNet-1K、CIFAR-10和CIFAR-100等标准基准上的大量实验表明,在相似计算复杂度(12.9G MACs / 56.7M 参数,无需大规模预训练)条件下,ASF-former在准确率上显著优于同类CNN、Transformer模型以及现有混合模型,其中在ImageNet-1K上达到83.9%的Top-1准确率。相关代码已开源,地址为:https://github.com/szx503045266/ASF-former。
代码仓库
szx503045266/asf-former
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | ASF-former-S | Percentage correct: 98.7 |
| image-classification-on-cifar-10 | ASF-former-B | Percentage correct: 98.8% |
| image-classification-on-cifar-10-image | ASF-former-B | Params: 56.7M |
| image-classification-on-cifar-10-image | ASF-former-S | Params: 19.3M |
| image-classification-on-imagenet | ASF-former-B | Number of params: 56.7M Top 1 Accuracy: 83.9% |
| image-classification-on-imagenet | ASF-former-S | Number of params: 19.3M Top 1 Accuracy: 82.7% |