3 个月前

VL-LTR:面向长尾视觉识别的类别级视觉-语言表征学习

VL-LTR:面向长尾视觉识别的类别级视觉-语言表征学习

摘要

基于深度学习的模型在处理现实世界中的长尾数据时面临诸多挑战。现有的解决方案通常依赖于某种平衡策略或迁移学习来缓解类别不平衡问题,但这些方法大多局限于图像模态。在本工作中,我们提出了一种视觉-语言长尾识别框架,称为VL-LTR,并通过实证研究探讨了引入文本模态对长尾识别(LTR)所带来的优势。与现有方法相比,所提出的VL-LTR具备以下优势:(1)该方法不仅能从图像中学习视觉表征,还能从互联网上收集的噪声级类别文本描述中学习对应的语言表征;(2)该方法能够有效利用所学习的视觉-语言联合表征,显著提升视觉识别性能,尤其在样本较少的类别上表现突出。我们进行了大量实验,并在多个广泛使用的长尾识别基准上取得了新的最先进性能。值得注意的是,我们的方法在ImageNet-LT数据集上实现了77.2%的总体准确率,较此前最优方法显著提升超过17个百分点,已接近在完整ImageNet上训练所得的主流性能水平。代码已开源,地址为:https://github.com/ChangyaoTian/VL-LTR。

代码仓库

ChangyaoTian/VL-LTR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-inaturalist-2018VL-LTR (ResNet-50)
Top-1 Accuracy: 74.6%
image-classification-on-inaturalist-2018VL-LTR (ViT-B-16)
Top-1 Accuracy: 81.0%
long-tail-learning-on-imagenet-ltVL-LTR (ViT-B-16)
Top-1 Accuracy: 77.2
long-tail-learning-on-imagenet-ltVL-LTR (ResNet-50)
Top-1 Accuracy: 70.1
long-tail-learning-on-inaturalist-2018VL-LTR (ViT-B-16)
Top-1 Accuracy: 81.0%
long-tail-learning-on-inaturalist-2018VL-LTR (ResNet-50)
Top-1 Accuracy: 74.6%
long-tail-learning-on-places-ltVL-LTR (ResNet-50)
Top-1 Accuracy: 48.0
long-tail-learning-on-places-ltVL-LTR (ViT-B-16)
Top-1 Accuracy: 50.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VL-LTR:面向长尾视觉识别的类别级视觉-语言表征学习 | 论文 | HyperAI超神经