8 个月前

计算机视觉

计算机视觉

Mannat Singh Quentin Duval Kalyan Vasudev Alwala Haoqi Fan Vaibhav Aggarwal Aaron Adcock Armand Joulin Piotr Dollár Christoph Feichtenhofer Ross Girshick

摘要

本文重新审视了计算机视觉中用于视觉识别任务的标准预训练然后微调范式。通常情况下，最先进的基础模型使用包含数十亿图像的大规模（弱）监督数据集进行预训练。我们引入了一个额外的预预训练阶段，该阶段简单且利用自监督的掩码自动编码器（MAE）技术来初始化模型。尽管此前的研究表明MAE仅随着模型规模的增大而扩展，但我们发现它同样随着训练数据集规模的增大而扩展。因此，基于MAE的预预训练既适用于模型规模也适用于数据规模的扩展，使其成为训练基础模型的有效方法。无论是在不同模型规模（从数百万到数十亿参数）还是在不同数据集大小（从数百万到数十亿图像）上，预预训练都能显著提高模型收敛速度和下游任务迁移性能。我们在10个不同的视觉识别任务上测量了预预训练的有效性，这些任务涵盖了图像分类、视频识别、目标检测、少样本分类和零样本识别。我们的最大规模模型在iNaturalist-18（91.7%）、ImageNet-ReaL（91.1%）、单样本ImageNet-1k（63.6%）以及Food-101上的零样本迁移任务中取得了新的最佳结果（96.2%）。本研究揭示了即使在使用数十亿图像进行网络规模预训练的情况下，模型初始化仍然发挥着重要作用，并且我们的模型已公开提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Mannat Singh Quentin Duval Kalyan Vasudev Alwala Haoqi Fan Vaibhav Aggarwal Aaron Adcock Armand Joulin Piotr Dollár Christoph Feichtenhofer Ross Girshick

摘要

本文重新审视了计算机视觉中用于视觉识别任务的标准预训练然后微调范式。通常情况下，最先进的基础模型使用包含数十亿图像的大规模（弱）监督数据集进行预训练。我们引入了一个额外的预预训练阶段，该阶段简单且利用自监督的掩码自动编码器（MAE）技术来初始化模型。尽管此前的研究表明MAE仅随着模型规模的增大而扩展，但我们发现它同样随着训练数据集规模的增大而扩展。因此，基于MAE的预预训练既适用于模型规模也适用于数据规模的扩展，使其成为训练基础模型的有效方法。无论是在不同模型规模（从数百万到数十亿参数）还是在不同数据集大小（从数百万到数十亿图像）上，预预训练都能显著提高模型收敛速度和下游任务迁移性能。我们在10个不同的视觉识别任务上测量了预预训练的有效性，这些任务涵盖了图像分类、视频识别、目标检测、少样本分类和零样本识别。我们的最大规模模型在iNaturalist-18（91.7%）、ImageNet-ReaL（91.1%）、单样本ImageNet-1k（63.6%）以及Food-101上的零样本迁移任务中取得了新的最佳结果（96.2%）。本研究揭示了即使在使用数十亿图像进行网络规模预训练的情况下，模型初始化仍然发挥着重要作用，并且我们的模型已公开提供。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供