4 个月前

所有标记都重要:用于训练更好的视觉Transformer的标记方法

所有标记都重要:用于训练更好的视觉Transformer的标记方法

摘要

在本文中,我们提出了一种新的训练目标——标记令牌(token labeling),用于训练高性能的视觉变换器(ViTs)。与传统的ViT训练目标不同,后者通过一个额外的可训练类别令牌计算分类损失,而我们的方法则利用所有图像块令牌以密集的方式计算训练损失。具体而言,标记令牌将图像分类问题重新表述为多个令牌级别的识别问题,并为每个图像块令牌分配由机器注释器生成的位置特定监督。实验表明,标记令牌可以显著且一致地提高各种ViT模型在广泛范围内的性能。以一个具有2600万个可学习参数的视觉变换器为例,通过使用标记令牌,该模型在ImageNet上的Top-1准确率可达84.4%。进一步将模型规模略微扩大至1.5亿个参数时,准确率可提升至86.4%,成为此前达到86%准确率的最小规模模型(2.5亿+参数)。我们还展示了标记令牌可以明显提高预训练模型在下游密集预测任务(如语义分割)中的泛化能力。我们的代码及所有训练细节将在https://github.com/zihangJiang/TokenLabeling公开发布。

代码仓库

sail-sg/dualformer
pytorch
GitHub 中提及
naver-ai/vidt
pytorch
GitHub 中提及
zhoudaquan/Refiner_ViT
pytorch
GitHub 中提及
catalpaaa/demansia
pytorch
GitHub 中提及
zihangJiang/TokenLabeling
官方
pytorch
GitHub 中提及
flytocc/TokenLabeling-paddle
paddle
GitHub 中提及

基准测试

基准方法指标
efficient-vits-on-imagenet-1k-with-lv-vit-sBase (LV-ViT-S)
GFLOPs: 6.6
Top 1 Accuracy: 83.3
image-classification-on-imagenetLV-ViT-S
GFLOPs: 6.6
Number of params: 26M
Top 1 Accuracy: 83.3%
image-classification-on-imagenetLV-ViT-M
GFLOPs: 16
Number of params: 56M
Top 1 Accuracy: 84.1%
image-classification-on-imagenetLV-ViT-L
GFLOPs: 214.8
Number of params: 151M
Top 1 Accuracy: 86.4%
semantic-segmentation-on-ade20kLV-ViT-L (UperNet, MS)
Params (M): 209
Validation mIoU: 51.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
所有标记都重要:用于训练更好的视觉Transformer的标记方法 | 论文 | HyperAI超神经