3 个月前

FastViT:一种基于结构重参数化的快速混合视觉Transformer

FastViT:一种基于结构重参数化的快速混合视觉Transformer

摘要

近年来,将Transformer与卷积神经网络设计相结合的架构取得了持续的精度与效率提升。在本工作中,我们提出FastViT——一种新型混合视觉Transformer架构,能够在延迟与精度之间实现当前最优的权衡。为此,我们引入了一种新颖的令牌混合操作算子RepMixer,作为FastViT的核心构建模块。该算子通过结构重参数化(structural reparameterization)技术,移除了网络中的跳跃连接(skip-connections),从而显著降低了内存访问开销。此外,我们采用训练阶段的过参数化(train-time overparametrization)以及大核卷积(large kernel convolutions)策略以进一步提升模型精度,并通过实验证明这些设计对推理延迟的影响微乎其微。实验结果表明:在相同ImageNet精度下,我们的模型在移动设备上的推理速度分别比近期先进的混合Transformer架构CMT快3.5倍,比EfficientNet快4.9倍,比ConvNeXt快1.9倍;在相近延迟水平下,其在ImageNet上的Top-1准确率比MobileOne高出4.2%。我们的模型在多个任务上均显著优于现有架构,包括图像分类、目标检测、语义分割以及3D网格回归任务,在移动设备和桌面GPU上均展现出显著的延迟优势。此外,该模型对分布外样本(out-of-distribution samples)和数据扰动(corruptions)表现出极强的鲁棒性,优于现有各类鲁棒性模型。相关代码与预训练模型已开源,详见:https://github.com/apple/ml-fastvit。

基准测试

基准方法指标
3d-hand-pose-estimation-on-freihandFastViT-MA36
PA-F@15mm: 0.981
PA-F@5mm: 0.722
PA-MPJPE: 6.6
PA-MPVPE: 6.7
image-classification-on-imagenetFastViT-SA24
Top 1 Accuracy: 82.6%
image-classification-on-imagenetFastViT-MA36
Top 1 Accuracy: 84.9%
image-classification-on-imagenetFastViT-SA12
Top 1 Accuracy: 80.6%
image-classification-on-imagenetFastViT-S12
Top 1 Accuracy: 79.8%
image-classification-on-imagenetFastViT-SA36
Top 1 Accuracy: 84.5%
image-classification-on-imagenetFastViT-T12
Top 1 Accuracy: 79.1%
image-classification-on-imagenetFastViT-T8
Top 1 Accuracy: 75.6%
semantic-segmentation-on-ade20kFastViT-SA36
Mean IoU (class): 42.9
semantic-segmentation-on-ade20kFastViT-SA12
Mean IoU (class): 38
semantic-segmentation-on-ade20kFastViT-SA24
Mean IoU (class): 41
semantic-segmentation-on-ade20kFastViT-MA36
Mean IoU (class): 44.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FastViT:一种基于结构重参数化的快速混合视觉Transformer | 论文 | HyperAI超神经