3 个月前

MetaFormer:一种用于细粒度识别的统一元框架

MetaFormer:一种用于细粒度识别的统一元框架

摘要

细粒度视觉分类(Fine-Grained Visual Classification, FGVC)是指识别属于某一超类下多个子类别的对象的任务。近年来,最先进的方法通常设计复杂的学习流程来应对这一挑战。然而,仅依靠视觉信息往往难以准确区分细粒度视觉类别之间的细微差异。如今,图像通常伴随着各种元信息(如时空先验、属性信息及文本描述),这启发我们提出一个问题:是否可以构建一个统一且简洁的框架,有效利用多种元信息以辅助细粒度识别?为回答这一问题,我们提出了一种统一且强大的元信息框架——MetaFormer,用于细粒度视觉分类。在实际应用中,MetaFormer提供了一种简单而高效的方法,实现视觉信息与多种元信息的联合学习。此外,该框架无需复杂组件(“bells and whistles”),即可作为FGVC任务的强大基线模型。大量实验表明,MetaFormer能够有效利用多种元信息,显著提升细粒度识别性能。在公平对比下,仅使用视觉信息时,MetaFormer在iNaturalist2017和iNaturalist2018数据集上已超越当前最先进方法;当引入元信息后,其性能分别超过现有SotA方法5.9%和5.3%。此外,在CUB-200-2011和NABirds数据集上,MetaFormer分别取得了92.3%和92.7%的准确率,显著优于当前最优方法。相关源代码与预训练模型已开源,地址为:https://github.com/dqshuai/MetaFormer。

代码仓库

salluru007/papers
GitHub 中提及
dqshuai/metaformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-cub-200MetaFormer (MetaFormer-2,384)
Accuracy: 92.9%
fine-grained-image-classification-on-nabirdsMetaFormer (MetaFormer-2,384)
Accuracy: 93.0%
image-classification-on-inaturalistMetaFormer (MetaFormer-2,384,extra_info)
Top 1 Accuracy: 83.4%
image-classification-on-inaturalistMetaFormer (MetaFormer-2,384)
Top 1 Accuracy: 80.4%
image-classification-on-inaturalist-2018MetaFormer (MetaFormer-2,384)
Top-1 Accuracy: 84.3%
image-classification-on-inaturalist-2018MetaFormer (MetaFormer-2,384,extra_info)
Top-1 Accuracy: 88.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MetaFormer:一种用于细粒度识别的统一元框架 | 论文 | HyperAI超神经