4 个月前

ML-Decoder:可扩展且多功能的分类头

ML-Decoder:可扩展且多功能的分类头

摘要

在本文中,我们介绍了ML-Decoder,一种新的基于注意力机制的分类头。ML-Decoder通过查询来预测类别标签的存在,并且相比全局平均池化,能够更好地利用空间数据。通过对解码器架构的重新设计以及使用一种新颖的分组解码方案,ML-Decoder具有极高的效率,并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比,ML-Decoder在速度和精度之间提供了更好的平衡。此外,ML-Decoder还具有很高的灵活性——它可以作为各种分类头的即插即用替代品,并且在使用词查询时能够推广到未见过的类别。新的查询增强方法进一步提高了其泛化能力。使用ML-Decoder,我们在多个分类任务上取得了最先进的结果:在MS-COCO多标签分类任务中,我们达到了91.4%的mAP;在NUS-WIDE零样本学习任务中,我们达到了31.1%的ZSL mAP;在ImageNet单标签分类任务中,我们使用标准的ResNet50骨干网络达到了80.7%的新最高分,而无需额外的数据或蒸馏技术。公开代码可在以下地址获取:https://github.com/Alibaba-MIIL/ML_Decoder

代码仓库

alibaba-miil/ml_decoder
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-stanfordTResNet-L + ML-Decoder
Accuracy: 96.41%
image-classification-on-cifar-100Swin-L + ML-Decoder
Percentage correct: 95.1
multi-label-classification-on-ms-cocoML-Decoder(TResNet-XL, resolution 640)
mAP: 91.4
multi-label-classification-on-ms-cocoML-Decoder(TResNet-L, resolution 640)
mAP: 91.1
multi-label-classification-on-openimages-v6TResNet-M
mAP: 86.8
multi-label-zero-shot-learning-on-nus-wideML-Decoder
mAP: 31.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ML-Decoder:可扩展且多功能的分类头 | 论文 | HyperAI超神经