
摘要
在本文中,我们介绍了ML-Decoder,一种新的基于注意力机制的分类头。ML-Decoder通过查询来预测类别标签的存在,并且相比全局平均池化,能够更好地利用空间数据。通过对解码器架构的重新设计以及使用一种新颖的分组解码方案,ML-Decoder具有极高的效率,并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比,ML-Decoder在速度和精度之间提供了更好的平衡。此外,ML-Decoder还具有很高的灵活性——它可以作为各种分类头的即插即用替代品,并且在使用词查询时能够推广到未见过的类别。新的查询增强方法进一步提高了其泛化能力。使用ML-Decoder,我们在多个分类任务上取得了最先进的结果:在MS-COCO多标签分类任务中,我们达到了91.4%的mAP;在NUS-WIDE零样本学习任务中,我们达到了31.1%的ZSL mAP;在ImageNet单标签分类任务中,我们使用标准的ResNet50骨干网络达到了80.7%的新最高分,而无需额外的数据或蒸馏技术。公开代码可在以下地址获取:https://github.com/Alibaba-MIIL/ML_Decoder
代码仓库
alibaba-miil/ml_decoder
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-stanford | TResNet-L + ML-Decoder | Accuracy: 96.41% |
| image-classification-on-cifar-100 | Swin-L + ML-Decoder | Percentage correct: 95.1 |
| multi-label-classification-on-ms-coco | ML-Decoder(TResNet-XL, resolution 640) | mAP: 91.4 |
| multi-label-classification-on-ms-coco | ML-Decoder(TResNet-L, resolution 640) | mAP: 91.1 |
| multi-label-classification-on-openimages-v6 | TResNet-M | mAP: 86.8 |
| multi-label-zero-shot-learning-on-nus-wide | ML-Decoder | mAP: 31.1 |