
摘要
基于深度学习的模型在处理现实世界中的长尾数据时面临诸多挑战。现有的解决方案通常依赖于某种平衡策略或迁移学习来缓解类别不平衡问题,但这些方法大多局限于图像模态。在本工作中,我们提出了一种视觉-语言长尾识别框架,称为VL-LTR,并通过实证研究探讨了引入文本模态对长尾识别(LTR)所带来的优势。与现有方法相比,所提出的VL-LTR具备以下优势:(1)该方法不仅能从图像中学习视觉表征,还能从互联网上收集的噪声级类别文本描述中学习对应的语言表征;(2)该方法能够有效利用所学习的视觉-语言联合表征,显著提升视觉识别性能,尤其在样本较少的类别上表现突出。我们进行了大量实验,并在多个广泛使用的长尾识别基准上取得了新的最先进性能。值得注意的是,我们的方法在ImageNet-LT数据集上实现了77.2%的总体准确率,较此前最优方法显著提升超过17个百分点,已接近在完整ImageNet上训练所得的主流性能水平。代码已开源,地址为:https://github.com/ChangyaoTian/VL-LTR。
代码仓库
ChangyaoTian/VL-LTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-inaturalist-2018 | VL-LTR (ResNet-50) | Top-1 Accuracy: 74.6% |
| image-classification-on-inaturalist-2018 | VL-LTR (ViT-B-16) | Top-1 Accuracy: 81.0% |
| long-tail-learning-on-imagenet-lt | VL-LTR (ViT-B-16) | Top-1 Accuracy: 77.2 |
| long-tail-learning-on-imagenet-lt | VL-LTR (ResNet-50) | Top-1 Accuracy: 70.1 |
| long-tail-learning-on-inaturalist-2018 | VL-LTR (ViT-B-16) | Top-1 Accuracy: 81.0% |
| long-tail-learning-on-inaturalist-2018 | VL-LTR (ResNet-50) | Top-1 Accuracy: 74.6% |
| long-tail-learning-on-places-lt | VL-LTR (ResNet-50) | Top-1 Accuracy: 48.0 |
| long-tail-learning-on-places-lt | VL-LTR (ViT-B-16) | Top-1 Accuracy: 50.1 |