3 个月前

基于高效端到端定位的细粒度视觉分类

基于高效端到端定位的细粒度视觉分类

摘要

细粒度视觉分类(Fine-Grained Visual Classification, FGVC)指的是一类类别之间差异极小的分类任务,分类模型需能够识别细微差别以实现准确预测。当前最先进的方法通常包含一个定位模块,旨在通过定位输入图像中的相关局部区域来辅助分类网络。然而,这类方法通常需要多次迭代或对完整分类网络进行多轮前向传播,或依赖复杂的训练策略。本文提出了一种高效的定位模块,可与分类网络以端到端的方式无缝融合。该模块一方面通过来自分类网络的反向传播梯度进行训练,另一方面引入两种自监督损失函数,以进一步提升定位精度。我们在三个基准数据集CUB200-2011、Stanford Cars和FGVC-Aircraft上对所提模型进行了评估,结果表明其在识别性能上达到了具有竞争力的水平。

基准测试

基准方法指标
fine-grained-image-classification-on-cub-200AttNet & AffNet
Accuracy: 88.9%
fine-grained-image-classification-on-fgvcAttNet & AffNet
Accuracy: 94.1%
fine-grained-image-classification-on-stanfordAttNet & AffNet
Accuracy: 95.6%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于高效端到端定位的细粒度视觉分类 | 论文 | HyperAI超神经