3 个月前

通过重新审视高频分量提升视觉Transformer性能

通过重新审视高频分量提升视觉Transformer性能

摘要

Transformer模型在处理各类视觉任务中已展现出令人瞩目的有效性。然而,与卷积神经网络(CNN)模型的训练相比,视觉Transformer(ViT)模型的训练更为困难,且高度依赖大规模训练数据集。为解释这一现象,我们提出一个假设:ViT模型在捕捉图像高频成分方面的能力弱于CNN模型,并通过频域分析对该假设进行了验证。基于这一发现,我们从新的频率视角重新审视了现有提升ViT性能的技术,发现部分技术(如RandAugment)的成功可归因于其对高频成分更有效的利用。为进一步弥补ViT模型在高频信息建模上的不足,我们提出了HAT(High-frequency Augmentation via Adversarial Training),该方法通过对抗训练直接增强图像的高频成分。实验表明,HAT能够稳定提升多种ViT模型的性能(例如,ViT-B提升+1.2%,Swin-B提升+0.5%),并显著提升先进模型VOLO-D5在仅使用ImageNet-1K数据情况下的表现,达到87.3%的准确率。此外,HAT在分布外数据上仍保持优越性能,并可有效迁移到下游任务。相关代码已开源,地址为:https://github.com/jiawangbai/HAT。

代码仓库

jiawangbai/HAT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-imagenet-cVOLO-D5+HAT
Number of params: 296M
mean Corruption Error (mCE): 38.4
domain-generalization-on-imagenet-rVOLO-D5+HAT
Top-1 Error Rate: 40.3
domain-generalization-on-stylized-imagenetVOLO-D5+HAT
Top 1 Accuracy: 25.9
image-classification-on-imagenetVOLO-D5+HAT
GFLOPs: 412
Number of params: 295.5M
Top 1 Accuracy: 87.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过重新审视高频分量提升视觉Transformer性能 | 论文 | HyperAI超神经