3 个月前

EVA:大规模掩码视觉表征学习的极限探索

EVA:大规模掩码视觉表征学习的极限探索

摘要

我们推出了EVA——一种以视觉为中心的基础模型,旨在仅使用公开可获取的数据,探索大规模视觉表征的极限。EVA是一种原始的视觉Transformer(ViT)模型,通过在可见图像块的条件下,重建被掩码的图像-文本对齐视觉特征进行预训练。借助这一预训练任务,我们能够高效地将EVA扩展至十亿参数规模,并在一系列代表性视觉下游任务中创下新纪录,包括图像识别、视频动作识别、目标检测、实例分割和语义分割,且无需依赖大量监督训练数据。此外,我们观察到,随着EVA规模的扩大,其迁移学习性能呈现出与其他模型不同的质变现象。例如,在极具挑战性的大词汇量实例分割任务中,EVA实现了显著跃升:我们的模型在包含上千类别的LVISv1.0数据集上达到接近最先进水平的性能,同时在仅有80个类别的COCO数据集上也表现出相当的竞争力。除了作为纯粹的视觉编码器外,EVA还可作为以视觉为中心的多模态枢纽,有效连接图像与文本。我们发现,使用EVA初始化大型CLIP模型的视觉主干网络,能够显著提升训练稳定性,并在远少的样本量和更低的计算成本下超越从零开始训练的基线模型,为加速和扩展多模态基础模型的昂贵训练提供了全新的路径。为促进未来研究,我们已将所有代码与模型开源,地址为:https://github.com/baaivision/EVA。

基准测试

基准方法指标
action-classification-on-kinetics-400EVA
Acc@1: 89.7
action-classification-on-kinetics-600EVA
Top-1 Accuracy: 89.8%
action-classification-on-kinetics-700EVA
Top-1 Accuracy: 82.9%
image-classification-on-imagenetEVA
Number of params: 1000M
Top 1 Accuracy: 89.7%
instance-segmentation-on-cocoEVA
AP50: 80.0
APL: 72.4
APM: 58.0
APS: 36.3
mask AP: 55.5
instance-segmentation-on-coco-minivalEVA
AP50: 79.4
AP75: 60.9
APL: 72.0
APM: 58.4
APS: 37.6
mask AP: 55.0
instance-segmentation-on-lvis-v1-0-valEVA
mask AP: 55.0
object-detection-on-cocoEVA
AP50: 81.9
AP75: 71.7
APL: 77.9
APM: 67.7
APS: 48.5
box mAP: 64.7
object-detection-on-coco-minivalEVA
AP50: 82.1
AP75: 70.8
APL: 78.5
APM: 68.4
APS: 49.4
box AP: 64.5
object-detection-on-coco-oEVA
Average mAP: 57.8
Effective Robustness: 28.86
object-detection-on-lvis-v1-0-valEVA
box AP: 62.2
box APr: 55.1
semantic-segmentation-on-ade20kEVA
Params (M): 1074
Validation mIoU: 62.3
semantic-segmentation-on-ade20k-valEVA
mIoU: 61.5
semantic-segmentation-on-coco-stuff-testEVA
mIoU: 53.4%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供