
摘要
细粒度视觉分类(Fine-Grained Visual Classification, FGVC)是指识别属于某一超类下多个子类别的对象的任务。近年来,最先进的方法通常设计复杂的学习流程来应对这一挑战。然而,仅依靠视觉信息往往难以准确区分细粒度视觉类别之间的细微差异。如今,图像通常伴随着各种元信息(如时空先验、属性信息及文本描述),这启发我们提出一个问题:是否可以构建一个统一且简洁的框架,有效利用多种元信息以辅助细粒度识别?为回答这一问题,我们提出了一种统一且强大的元信息框架——MetaFormer,用于细粒度视觉分类。在实际应用中,MetaFormer提供了一种简单而高效的方法,实现视觉信息与多种元信息的联合学习。此外,该框架无需复杂组件(“bells and whistles”),即可作为FGVC任务的强大基线模型。大量实验表明,MetaFormer能够有效利用多种元信息,显著提升细粒度识别性能。在公平对比下,仅使用视觉信息时,MetaFormer在iNaturalist2017和iNaturalist2018数据集上已超越当前最先进方法;当引入元信息后,其性能分别超过现有SotA方法5.9%和5.3%。此外,在CUB-200-2011和NABirds数据集上,MetaFormer分别取得了92.3%和92.7%的准确率,显著优于当前最优方法。相关源代码与预训练模型已开源,地址为:https://github.com/dqshuai/MetaFormer。
代码仓库
salluru007/papers
GitHub 中提及
dqshuai/metaformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | MetaFormer (MetaFormer-2,384) | Accuracy: 92.9% |
| fine-grained-image-classification-on-nabirds | MetaFormer (MetaFormer-2,384) | Accuracy: 93.0% |
| image-classification-on-inaturalist | MetaFormer (MetaFormer-2,384,extra_info) | Top 1 Accuracy: 83.4% |
| image-classification-on-inaturalist | MetaFormer (MetaFormer-2,384) | Top 1 Accuracy: 80.4% |
| image-classification-on-inaturalist-2018 | MetaFormer (MetaFormer-2,384) | Top-1 Accuracy: 84.3% |
| image-classification-on-inaturalist-2018 | MetaFormer (MetaFormer-2,384,extra_info) | Top-1 Accuracy: 88.7% |