
摘要
从自然语言监督中学习视觉表示在最近的一些开创性工作中展现出巨大潜力。总体而言,这些语言增强的视觉模型在多种数据集和任务上表现出强大的迁移能力。然而,由于缺乏易于使用的评估工具包和公开基准,评估这些模型的迁移能力仍然具有挑战性。为了解决这一问题,我们构建了ELEVATER(语言增强视觉任务级迁移评估),这是首个用于评估(预训练)语言增强视觉模型的基准和工具包。ELEVATER由三个部分组成:(i) 数据集。作为下游评估套件,它包括20个图像分类数据集和35个目标检测数据集,每个数据集都加入了外部知识。(ii) 工具包。开发了一个自动超参数调优工具包,以促进模型在下游任务上的评估。(iii) 指标。使用多种评估指标来衡量样本效率(零样本和少样本)和参数效率(线性探测和全模型微调)。ELEVATER是一个面向野外计算机视觉(CVinW)的平台,并已公开发布于https://computer-vision-in-the-wild.github.io/ELEVATER/
代码仓库
sincerass/mvlpt
pytorch
GitHub 中提及
microsoft/unicl
pytorch
GitHub 中提及
Computer-Vision-in-the-Wild/Elevater_Toolkit_IC
官方
pytorch
GitHub 中提及
microsoft/esvit
pytorch
GitHub 中提及
microsoft/klite
pytorch
GitHub 中提及
computer-vision-in-the-wild/cvinw_readings
官方
GitHub 中提及
microsoft/GLIP
pytorch
GitHub 中提及
rsCPSyEu/ovd_cod
pytorch
GitHub 中提及
eric-ai-lab/pevit
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| object-detection-on-elevater | GLIP-T | AP: 62.6 |
| object-detection-on-odinw-full-shot-35-tasks | GLIP-T | AP: 62.6 |
| zero-shot-image-classification-on-icinw | CLIP (ViT B-32) | Average Score: 56.64 |
| zero-shot-image-classification-on-odinw | GLIP (Tiny A) | Average Score: 11.4 |
| zero-shot-object-detection-on-odinw | GLIP (Tiny A) | Average Score: 11.4 |