4 个月前

ML-Decoder：可扩展且多功能的分类头

Ridnik Tal ; Sharir Gilad ; Ben-Cohen Avi ; Ben-Baruch Emanuel ; Noy Asaf

摘要

在本文中，我们介绍了ML-Decoder，一种新的基于注意力机制的分类头。ML-Decoder通过查询来预测类别标签的存在，并且相比全局平均池化，能够更好地利用空间数据。通过对解码器架构的重新设计以及使用一种新颖的分组解码方案，ML-Decoder具有极高的效率，并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比，ML-Decoder在速度和精度之间提供了更好的平衡。此外，ML-Decoder还具有很高的灵活性——它可以作为各种分类头的即插即用替代品，并且在使用词查询时能够推广到未见过的类别。新的查询增强方法进一步提高了其泛化能力。使用ML-Decoder，我们在多个分类任务上取得了最先进的结果：在MS-COCO多标签分类任务中，我们达到了91.4%的mAP；在NUS-WIDE零样本学习任务中，我们达到了31.1%的ZSL mAP；在ImageNet单标签分类任务中，我们使用标准的ResNet50骨干网络达到了80.7%的新最高分，而无需额外的数据或蒸馏技术。公开代码可在以下地址获取：https://github.com/Alibaba-MIIL/ML_Decoder

代码仓库

alibaba-miil/ml_decoder

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
fine-grained-image-classification-on-stanford	TResNet-L + ML-Decoder	Accuracy: 96.41%
image-classification-on-cifar-100	Swin-L + ML-Decoder	Percentage correct: 95.1
multi-label-classification-on-ms-coco	ML-Decoder(TResNet-XL, resolution 640)	mAP: 91.4
multi-label-classification-on-ms-coco	ML-Decoder(TResNet-L, resolution 640)	mAP: 91.1
multi-label-classification-on-openimages-v6	TResNet-M	mAP: 86.8
multi-label-zero-shot-learning-on-nus-wide	ML-Decoder	mAP: 31.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供