4 个月前

ELEVATER:评估语言增强视觉模型的基准和工具包

ELEVATER:评估语言增强视觉模型的基准和工具包

摘要

从自然语言监督中学习视觉表示在最近的一些开创性工作中展现出巨大潜力。总体而言,这些语言增强的视觉模型在多种数据集和任务上表现出强大的迁移能力。然而,由于缺乏易于使用的评估工具包和公开基准,评估这些模型的迁移能力仍然具有挑战性。为了解决这一问题,我们构建了ELEVATER(语言增强视觉任务级迁移评估),这是首个用于评估(预训练)语言增强视觉模型的基准和工具包。ELEVATER由三个部分组成:(i) 数据集。作为下游评估套件,它包括20个图像分类数据集和35个目标检测数据集,每个数据集都加入了外部知识。(ii) 工具包。开发了一个自动超参数调优工具包,以促进模型在下游任务上的评估。(iii) 指标。使用多种评估指标来衡量样本效率(零样本和少样本)和参数效率(线性探测和全模型微调)。ELEVATER是一个面向野外计算机视觉(CVinW)的平台,并已公开发布于https://computer-vision-in-the-wild.github.io/ELEVATER/

代码仓库

sincerass/mvlpt
pytorch
GitHub 中提及
microsoft/unicl
pytorch
GitHub 中提及
microsoft/esvit
pytorch
GitHub 中提及
microsoft/klite
pytorch
GitHub 中提及
microsoft/GLIP
pytorch
GitHub 中提及
rsCPSyEu/ovd_cod
pytorch
GitHub 中提及
eric-ai-lab/pevit
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-elevaterGLIP-T
AP: 62.6
object-detection-on-odinw-full-shot-35-tasksGLIP-T
AP: 62.6
zero-shot-image-classification-on-icinwCLIP (ViT B-32)
Average Score: 56.64
zero-shot-image-classification-on-odinwGLIP (Tiny A)
Average Score: 11.4
zero-shot-object-detection-on-odinwGLIP (Tiny A)
Average Score: 11.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ELEVATER:评估语言增强视觉模型的基准和工具包 | 论文 | HyperAI超神经