
摘要
ImageNet大规模视觉识别挑战赛(ILSVRC)是近年来计算机视觉(CV)领域最具权威性的学术竞赛之一。然而,直接将ILSVRC年度冠军模型应用于细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)任务时,难以取得理想性能。这是由于FGVC任务中类别间差异较小、类内差异较大,因而具有较高挑战性。为此,我们提出注意力目标定位模块(Attention Object Location Module, AOLM),可预测目标物体的位置;同时引入注意力部分提议模块(Attention Part Proposal Module, APPM),能够在无需边界框或部件标注的情况下,自动提出具有信息量的局部区域。由此获得的图像样本中,目标图像几乎包含物体的完整结构,同时保留更多细节;局部区域图像则涵盖多种尺度,蕴含更丰富的细粒度特征;而原始图像则完整呈现目标对象。我们采用多分支网络对这三类训练图像进行联合监督。因此,所提出的多分支、多尺度学习网络(Multi-Branch and Multi-Scale Learning Network, MMAL-Net)在不同尺度图像上均展现出优异的分类能力与鲁棒性。本方法支持端到端训练,同时具备较短的推理时间。大量实验结果表明,该方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars等多个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。相关代码将开源,地址为:https://github.com/ZF1044404254/MMAL-Net。
代码仓库
mv-lab/ViT-FGVC8
GitHub 中提及
ZF4444/MMAL-Net
pytorch
GitHub 中提及
dreamercv/HSResNet-MMAL
pytorch
GitHub 中提及
ZF1044404254/TBMSL-Net
官方
pytorch
GitHub 中提及
ZF1044404254/MMAL-Net
官方
pytorch
GitHub 中提及
1170500804/tbmsl
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | TBMSL-Net | Accuracy: 89.6 |
| fine-grained-image-classification-on-fgvc | TBMSL-Net | Accuracy: 94.7% |
| fine-grained-image-classification-on-stanford | TBMSL-Net | Accuracy: 95.0% |