8 个月前

摘要

在本文中，我们提出了一种新的训练目标——标记令牌（token labeling），用于训练高性能的视觉变换器（ViTs）。与传统的ViT训练目标不同，后者通过一个额外的可训练类别令牌计算分类损失，而我们的方法则利用所有图像块令牌以密集的方式计算训练损失。具体而言，标记令牌将图像分类问题重新表述为多个令牌级别的识别问题，并为每个图像块令牌分配由机器注释器生成的位置特定监督。实验表明，标记令牌可以显著且一致地提高各种ViT模型在广泛范围内的性能。以一个具有2600万个可学习参数的视觉变换器为例，通过使用标记令牌，该模型在ImageNet上的Top-1准确率可达84.4%。进一步将模型规模略微扩大至1.5亿个参数时，准确率可提升至86.4%，成为此前达到86%准确率的最小规模模型（2.5亿+参数）。我们还展示了标记令牌可以明显提高预训练模型在下游密集预测任务（如语义分割）中的泛化能力。我们的代码及所有训练细节将在https://github.com/zihangJiang/TokenLabeling公开发布。

源 PDF 查看代码