3 个月前

大规模视觉编码器的多模态自回归预训练

大规模视觉编码器的多模态自回归预训练

摘要

我们提出了一种大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架拓展至多模态场景,即图像与文本的联合建模。本文介绍了AIMV2系列通用视觉编码器,其特点包括简单直观的预训练流程、良好的可扩展性,以及在多种下游任务中表现出色的性能。该方法通过将视觉编码器与一个多模态解码器相结合,实现对原始图像块和文本标记的自回归生成。我们的编码器不仅在多模态评估中表现优异,在视觉基准任务(如目标定位、视觉定位与分类)中也展现出卓越性能。值得注意的是,AIMV2-3B编码器在ImageNet-1k数据集上实现了89.5%的准确率(采用冻结主干网络),且在多种场景下,其多模态图像理解能力持续优于当前最先进的对比学习模型(如CLIP、SigLIP)。

代码仓库

apple/ml-aim
官方
jax
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetAIMv2-3B
Top 1 Accuracy: 88.5%
image-classification-on-imagenetAIMv2-2B
Number of params: 2700M
image-classification-on-imagenetAIMv2-3B (448 res)
Top 1 Accuracy: 89.5%
image-classification-on-imagenetAIMv2-L
Number of params: 300M
Top 1 Accuracy: 86.6%
image-classification-on-imagenetAIMv2-1B
Number of params: 1200M
Top 1 Accuracy: 88.1%
image-classification-on-imagenetAIMv2-H
Number of params: 600M
Top 1 Accuracy: 87.5%
image-classification-on-inaturalistAIMv2-1B
Top 1 Accuracy: 79.7
image-classification-on-inaturalistAIMv2-H
Top 1 Accuracy: 77.9
image-classification-on-inaturalistAIMv2-3B
Top 1 Accuracy: 81.5
image-classification-on-inaturalistAIMv2-L
Top 1 Accuracy: 76
image-classification-on-inaturalistAIMv2-3B (448 res)
Top 1 Accuracy: 85.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模视觉编码器的多模态自回归预训练 | 论文 | HyperAI超神经