Ching-Hsun TsengShin-Jye LeeJia-Nan FengShengzhong MaoYu-Ping WuJia-Yu ShangMou-Chung TsengXiao-Jun Zeng

摘要
在图像分类任务中,基于跳跃连接(skip connection)和密集连接(dense connection)的网络结构长期占据各大排行榜的主导地位。近年来,随着自然语言处理领域中多头注意力机制(multi-head attention)的成功应用,业界普遍认为当前已进入非使用类似Transformer的模型,即采用卷积神经网络(CNN)与注意力机制相结合的混合架构的时代。然而,纯Transformer模型通常需要巨大的计算资源进行训练,而混合CNN与注意力机制的方案则在性能与效率之间达到了理想的平衡。为此,本文提出UPANets,该模型通过将通道注意力机制(channel-wise attention)与混合跳跃-密集连接结构相结合,使CNN能够更有效地捕捉全局与局部信息。此外,其特有的“极端连接”(extreme-connection)结构进一步增强了模型的鲁棒性,并带来了更平滑的损失曲面。实验结果表明,UPANets在Cifar-10上取得了96.47%的准确率,在Cifar-100上达到80.29%,在Tiny ImageNet上达到67.67%,显著超越了多数知名且广泛使用的先进模型(SOTA)。尤为重要的是,这些优异性能均以极高的参数效率实现,且仅需在单一客户定制GPU上进行训练。本文已将UPANets的实现代码开源,地址为:https://github.com/hanktseng131415go/UPANets。
代码仓库
hanktseng131415go/UPANets
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | UPANets | Percentage correct: 96.47 |
| image-classification-on-cifar-100 | UPANets | Percentage correct: 80.29 |
| image-classification-on-tiny-imagenet-1 | UPANets | Validation Acc: 67.67 |
| image-classification-on-tiny-imagenet-2 | UPANets | Top 1 Accuracy: 67.67 |