
摘要
在本文中,我们探讨了自监督学习是否为视觉变换器(Vision Transformer,简称ViT)提供了相较于卷积网络(Convolutional Networks,简称Convnets)更为突出的新特性。除了将自监督方法应用于该架构特别有效这一事实外,我们还做出了以下观察:首先,自监督ViT特征包含关于图像语义分割的显式信息,而这种信息在监督下的ViT或Convnets中并不那么明显。其次,这些特征也是优秀的k近邻分类器,在小型ViT上达到了ImageNet数据集78.3%的Top-1准确率。我们的研究还强调了动量编码器、多裁剪训练以及使用小尺寸补丁对于ViT的重要性。我们将这些发现整合到一个简单的自监督方法中,称为DINO,可以将其解释为一种无标签的自我蒸馏形式。通过线性评估,我们展示了DINO与ViT之间的协同作用,在ImageNet数据集上使用ViT-Base模型达到了80.1%的Top-1准确率。
代码仓库
waltersimoncini/fungivision
pytorch
GitHub 中提及
valeoai/found
pytorch
GitHub 中提及
rajatkoner08/oodformer
pytorch
GitHub 中提及
ipmi-icns-uke/sparsam
pytorch
GitHub 中提及
clemsgrs/hipt
pytorch
GitHub 中提及
woctezuma/steam-DINO
GitHub 中提及
alijavidani/local_global_representation_learning
pytorch
GitHub 中提及
lightly-ai/lightly
pytorch
GitHub 中提及
PaddlePaddle/PASSL
paddle
beresandras/contrastive-classification-keras
tf
GitHub 中提及
kaiko-ai/eva
pytorch
GitHub 中提及
computationalpathologygroup/hvit
pytorch
GitHub 中提及
ttt496/vit-pytorch
pytorch
GitHub 中提及
vturrisi/solo-learn
pytorch
GitHub 中提及
manantomar/video-occupancy-models
pytorch
GitHub 中提及
jmnolte/hccnet
pytorch
GitHub 中提及
hasibzunair/peekaboo
pytorch
GitHub 中提及
facebookresearch/vissl
pytorch
GitHub 中提及
alibaba/EasyCV
pytorch
facebookresearch/dino
官方
pytorch
GitHub 中提及
valeoai/LOST
pytorch
GitHub 中提及
sithu31296/simple-object-tracking
pytorch
GitHub 中提及
adrienangeli/dino
pytorch
GitHub 中提及
TRAILab/ST-SLidR
pytorch
GitHub 中提及
Expedit-LargeScale-Vision-Transformer/Expedit-DINO
pytorch
GitHub 中提及
ahmedelmahy/myownvit
pytorch
GitHub 中提及