4 个月前

DeiT-LT 蒸馏方法在长尾数据集上训练视觉变换器时重获优势

DeiT-LT 蒸馏方法在长尾数据集上训练视觉变换器时重获优势

摘要

视觉变换器(Vision Transformer, ViT)已成为多种计算机视觉任务中的重要架构。在ViT中,我们将输入图像划分为补丁标记(patch tokens),并通过一系列自注意力块进行处理。然而,与卷积神经网络(Convolutional Neural Networks, CNN)不同,ViT的简单架构缺乏有效的归纳偏置(例如局部性等)。因此,ViT需要大量的数据来进行预训练。为了在平衡数据集上有效训练ViT,已经提出了各种数据高效的方法(如DeiT)。然而,关于如何在长尾不平衡数据集上使用ViT的研究相对较少。在这项工作中,我们引入了DeiT-LT来解决从头开始在长尾数据集上训练ViT的问题。在DeiT-LT中,我们通过使用分布外图像和重新加权蒸馏损失来增强对尾类的关注,从而提出了一种高效且有效的方式从CNN进行蒸馏。这使得早期的ViT块能够学习到类似于局部性的CNN特征,提高了对尾类的泛化能力。此外,为了解决过拟合问题,我们建议从一个平坦的CNN教师模型进行蒸馏,从而在整个ViT块中学习低秩可泛化的特征。通过所提出的DeiT-LT方案,蒸馏DIST标记成为尾类的专家,而分类器CLS标记则成为头类的专家。这些专家有助于在同一ViT架构内使用不同的标记集合有效地学习多数类和少数类对应的特征。我们在从小规模CIFAR-10 LT到大规模iNaturalist-2018的数据集上展示了DeiT-LT从头开始训练ViT的有效性。

代码仓库

val-iisc/DeiT-LT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-inaturalistb_22DeiT-LT(ours)
Overall: 75.1
long-tail-learning-on-cifar-10-lt-r-100DeiT-LT
Error Rate: 12.5
long-tail-learning-on-cifar-10-lt-r-50DeiT-LT
Error Rate: 10.2
long-tail-learning-on-cifar-100-lt-r-100DeiT-LT
Error Rate: 44.4
long-tail-learning-on-cifar-100-lt-r-50DeiT-LT
Error Rate: 39.5
long-tail-learning-on-imagenet-ltDeiT-LT
Top-1 Accuracy: 59.1
long-tail-learning-on-inaturalist-2018DeiT-LT
Top-1 Accuracy: 75.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeiT-LT 蒸馏方法在长尾数据集上训练视觉变换器时重获优势 | 论文 | HyperAI超神经