6 个月前

计算机视觉

计算机视觉

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

摘要

本文表明，掩码自编码器（Masked Autoencoders, MAE）是适用于计算机视觉的可扩展自监督学习方法。我们的MAE方法设计简洁：对输入图像的随机图像块进行掩码，并重建缺失的像素。该方法基于两个核心设计。首先，我们提出一种非对称的编码器-解码器架构，其中编码器仅处理可见的图像块子集（不包含掩码标记），而解码器则轻量化设计，能够从潜在表示和掩码标记中重建原始图像。其次，我们发现对输入图像进行高比例的掩码（例如75%）能够形成一个具有实际意义且有效的自监督学习任务。将这两个设计相结合，使得我们能够高效且有效地训练大规模模型：训练速度提升3倍或更多，同时显著提高模型精度。该可扩展的方法支持训练高容量模型，且具有优异的泛化能力：例如，一个标准的ViT-Huge模型在仅使用ImageNet-1K数据的方法中达到了最佳准确率（87.8%）。在下游任务中的迁移性能超越了监督预训练方法，并展现出极具前景的可扩展性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

摘要

本文表明，掩码自编码器（Masked Autoencoders, MAE）是适用于计算机视觉的可扩展自监督学习方法。我们的MAE方法设计简洁：对输入图像的随机图像块进行掩码，并重建缺失的像素。该方法基于两个核心设计。首先，我们提出一种非对称的编码器-解码器架构，其中编码器仅处理可见的图像块子集（不包含掩码标记），而解码器则轻量化设计，能够从潜在表示和掩码标记中重建原始图像。其次，我们发现对输入图像进行高比例的掩码（例如75%）能够形成一个具有实际意义且有效的自监督学习任务。将这两个设计相结合，使得我们能够高效且有效地训练大规模模型：训练速度提升3倍或更多，同时显著提高模型精度。该可扩展的方法支持训练高容量模型，且具有优异的泛化能力：例如，一个标准的ViT-Huge模型在仅使用ImageNet-1K数据的方法中达到了最佳准确率（87.8%）。在下游任务中的迁移性能超越了监督预训练方法，并展现出极具前景的可扩展性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供