Enrico FiniMustafa ShukorXiujun LiPhilipp DufterMichal KleinDavid HaldimannSai AitharajuVictor Guilherme Turrisi da CostaLouis BéthuneZhe GanAlexander T ToshevMarcin EichnerMoin NabiYinfei YangJoshua M. SusskindAlaaeldin El-Nouby

摘要
我们提出了一种大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架拓展至多模态场景,即图像与文本的联合建模。本文介绍了AIMV2系列通用视觉编码器,其特点包括简单直观的预训练流程、良好的可扩展性,以及在多种下游任务中表现出色的性能。该方法通过将视觉编码器与一个多模态解码器相结合,实现对原始图像块和文本标记的自回归生成。我们的编码器不仅在多模态评估中表现优异,在视觉基准任务(如目标定位、视觉定位与分类)中也展现出卓越性能。值得注意的是,AIMV2-3B编码器在ImageNet-1k数据集上实现了89.5%的准确率(采用冻结主干网络),且在多种场景下,其多模态图像理解能力持续优于当前最先进的对比学习模型(如CLIP、SigLIP)。
代码仓库
apple/ml-aim
官方
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | AIMv2-3B | Top 1 Accuracy: 88.5% |
| image-classification-on-imagenet | AIMv2-2B | Number of params: 2700M |
| image-classification-on-imagenet | AIMv2-3B (448 res) | Top 1 Accuracy: 89.5% |
| image-classification-on-imagenet | AIMv2-L | Number of params: 300M Top 1 Accuracy: 86.6% |
| image-classification-on-imagenet | AIMv2-1B | Number of params: 1200M Top 1 Accuracy: 88.1% |
| image-classification-on-imagenet | AIMv2-H | Number of params: 600M Top 1 Accuracy: 87.5% |
| image-classification-on-inaturalist | AIMv2-1B | Top 1 Accuracy: 79.7 |
| image-classification-on-inaturalist | AIMv2-H | Top 1 Accuracy: 77.9 |
| image-classification-on-inaturalist | AIMv2-3B | Top 1 Accuracy: 81.5 |
| image-classification-on-inaturalist | AIMv2-L | Top 1 Accuracy: 76 |
| image-classification-on-inaturalist | AIMv2-3B (448 res) | Top 1 Accuracy: 85.9 |