
摘要
细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)是计算机视觉领域中一个极具挑战性的研究课题,其核心特征在于类内差异显著而类间差异细微。本文提出一种弱监督学习方法,通过引入基于视觉注意力机制的数据增强技术,向神经网络模型注入额外数据以提升性能。我们通过对基础网络模型进行微调,实现领域自适应的知识迁移。在六个具有代表性和挑战性的FGVC公开数据集上进行了实验,结果表明,结合InceptionV3深度学习模型(该模型在大规模数据集上预训练)提取的特征,采用注意力感知的数据增强技术可显著提升分类准确率。所提方法在多个FGVC数据集上优于现有竞争方法,并在其他数据集上也取得了具有竞争力的性能表现。实验研究表明,结合基于视觉注意力的数据增强策略,能够高效利用大规模预训练数据集的迁移学习能力,从而在多个FGVC数据集上达到当前最优(state-of-the-art)水平。本文对实验结果进行了全面分析,所提方法在多个细粒度分类数据集上取得了领先成果,尤其在具有挑战性的CUB200-2011鸟类、Flowers-102以及FGVC-Aircraft数据集上表现突出。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | DATL | Accuracy: 91.2 |
| fine-grained-image-classification-on-fgvc | ImageNet + iNat on WS-DAN | Top-1: 91.5 |
| fine-grained-image-classification-on-food-101 | ImageNet + iNat on WS-DAN | Top 1 Accuracy: 88.7 |
| fine-grained-image-classification-on-stanford-1 | ImageNet + iNat on WS-DAN | Accuracy: 90% |
| image-classification-on-flowers-102 | DAT | Accuracy: 98.9% |
| image-classification-on-stanford-cars | ImageNet + iNat on WS-DAN | Accuracy: 94.1 |