
摘要
细粒度视觉分类(Fine-Grained Visual Classification, FGVC)指的是一类类别之间差异极小的分类任务,分类模型需能够识别细微差别以实现准确预测。当前最先进的方法通常包含一个定位模块,旨在通过定位输入图像中的相关局部区域来辅助分类网络。然而,这类方法通常需要多次迭代或对完整分类网络进行多轮前向传播,或依赖复杂的训练策略。本文提出了一种高效的定位模块,可与分类网络以端到端的方式无缝融合。该模块一方面通过来自分类网络的反向传播梯度进行训练,另一方面引入两种自监督损失函数,以进一步提升定位精度。我们在三个基准数据集CUB200-2011、Stanford Cars和FGVC-Aircraft上对所提模型进行了评估,结果表明其在识别性能上达到了具有竞争力的水平。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | AttNet & AffNet | Accuracy: 88.9% |
| fine-grained-image-classification-on-fgvc | AttNet & AffNet | Accuracy: 94.1% |
| fine-grained-image-classification-on-stanford | AttNet & AffNet | Accuracy: 95.6% |