HyperAIHyperAI

Command Palette

Search for a command to run...

训练数据高效的图像变换器及通过注意力机制进行蒸馏

Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles Hervé Jégou

摘要

最近,纯基于注意力机制的神经网络在图像理解任务(如图像分类)中展现出了良好的效果。然而,这些视觉 Transformer 通常需要使用昂贵的基础设施进行数亿张图像的预训练,这限制了它们的应用范围。在这项工作中,我们仅通过在ImageNet上训练,生成了一个具有竞争力且无卷积操作的 Transformer 模型。我们使用单台计算机在不到3天的时间内完成了训练。我们的基准视觉 Transformer (8600万个参数)在ImageNet上实现了83.1%的单裁剪评估准确率,而未使用任何外部数据。更重要的是,我们引入了一种专为 Transformer 设计的教师-学生策略。该策略依赖于一个蒸馏令牌(distillation token),确保学生模型通过注意力机制从教师模型中学习。我们展示了这种基于令牌的蒸馏方法的优势,特别是在使用卷积神经网络作为教师模型时。这使得我们在ImageNet上获得了与卷积神经网络相当的结果(最高达到85.2%的准确率),并且在迁移到其他任务时也表现出色。我们已共享了代码和模型。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
训练数据高效的图像变换器及通过注意力机制进行蒸馏 | 论文 | HyperAI超神经