3 个月前

Conviformers:卷积引导的视觉Transformer

Conviformers:卷积引导的视觉Transformer

摘要

如今,视觉Transformer(Vision Transformer, ViT)已成为图像分类任务的默认选择。图像分类任务大致可分为细粒度分类与粗粒度分类两类。在细粒度分类中,由于子类别之间具有高度相似性,必须识别细微差异。然而,当为节省视觉Transformer所伴随的内存与计算成本而对图像进行下采样时,这些细微特征往往被丢失。本文针对从腊叶标本中进行植物细粒度分类的任务,开展了深入分析,并阐明了构建此类系统的关键组件。我们的大量实验分析表明,亟需更优的数据增强技术,同时现代神经网络应具备处理高维图像的能力。为此,我们提出了一种新型卷积-Transformer架构——Conviformer。与流行的视觉Transformer(ConViT)不同,Conviformer能够在不导致内存与计算成本急剧增长的前提下,有效处理高分辨率图像。此外,我们还引入了一种新颖的改进型预处理方法——PreSizer,该方法可在保持图像原始长宽比的前提下更精准地进行尺寸调整,这一特性在自然植物分类任务中被证明至关重要。通过这一简单而高效的方法,我们在Herbarium 202x与iNaturalist 2019数据集上均取得了当前最优(State-of-the-Art, SoTA)的性能表现。

代码仓库

vaishnavmohit/Conviformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-4Conviformer-B
Test F1 score: .719
fine-grained-image-classification-on-5Conviformer-B
Test F1 score (private): .868
image-classification-on-inaturalist-2019Conviformer-B
Top-1 Accuracy: 82.85

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Conviformers:卷积引导的视觉Transformer | 论文 | HyperAI超神经