3 个月前

带有标签模糊性的图像分类多标签迭代学习

带有标签模糊性的图像分类多标签迭代学习

摘要

大规模预训练模型的迁移学习已成为众多计算机视觉任务中的关键技术。近期研究表明,ImageNet等数据集存在弱标注问题:当图像中包含多个物体类别时,仅被赋予单一标签,这种标注方式引入了语义模糊性,导致模型倾向于单一预测,从而抑制了在数据中频繁共现的类别。受语言演化研究的启发,我们提出了一种多标签迭代学习(Multi-Label Iterated Learning, MILe)方法,通过迭代学习框架,从单标签中引入多标签学习的归纳偏置。MILe是一种简洁而高效的方法,其核心思想是通过教师-学生网络在多代传播过程中,利用学习瓶颈机制,逐步构建图像的多标签描述。实验结果表明,该方法在ImageNet上的准确率以及ReaL F1分数方面均展现出系统性提升,说明MILe在处理标签模糊性方面优于标准训练流程,即使在从自监督预训练权重进行微调的情况下依然有效。此外,MILe在降低标签噪声方面表现突出,在真实世界大规模噪声数据集(如WebVision)上取得了当前最优性能。同时,MILe在类别增量学习场景(如IIRC)中亦能提升模型表现,并对分布偏移具有较强的鲁棒性。代码已开源:https://github.com/rajeswar18/MILe

基准测试

基准方法指标
image-classification-on-webvision-1000MILe (ResNet-50)
ImageNet Top-1 Accuracy: 67.1
ImageNet Top-5 Accuracy: 85.6
Top-1 Accuracy: 75.2%
Top-5 Accuracy: 90.3%
image-classification-on-webvision-1000MILe (ResNet-50-D)
ImageNet Top-1 Accuracy: 68.7
ImageNet Top-5 Accuracy: 86.4
Top-1 Accuracy: 76.5%
Top-5 Accuracy: 90.9%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
带有标签模糊性的图像分类多标签迭代学习 | 论文 | HyperAI超神经