HyperAI超神经

摘要

在本文中，我们探讨了自监督学习是否为视觉变换器（Vision Transformer，简称ViT）提供了相较于卷积网络（Convolutional Networks，简称Convnets）更为突出的新特性。除了将自监督方法应用于该架构特别有效这一事实外，我们还做出了以下观察：首先，自监督ViT特征包含关于图像语义分割的显式信息，而这种信息在监督下的ViT或Convnets中并不那么明显。其次，这些特征也是优秀的k近邻分类器，在小型ViT上达到了ImageNet数据集78.3%的Top-1准确率。我们的研究还强调了动量编码器、多裁剪训练以及使用小尺寸补丁对于ViT的重要性。我们将这些发现整合到一个简单的自监督方法中，称为DINO，可以将其解释为一种无标签的自我蒸馏形式。通过线性评估，我们展示了DINO与ViT之间的协同作用，在ImageNet数据集上使用ViT-Base模型达到了80.1%的Top-1准确率。

摘要

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自监督视觉变换器中的新兴特性

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自监督视觉变换器中的新兴特性

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

自监督视觉变换器中的新兴特性

Mathilde Caron Hugo Touvron Ishan Misra Hervé Jegou Julien Mairal Piotr Bojanowski Armand Joulin

摘要

用 AI 构建 AI

HyperAI Newsletters