3 个月前

CLIP 能为视觉-语言任务带来多大提升?

CLIP 能为视觉-语言任务带来多大提升?

摘要

现有的大多数视觉-语言(Vision-and-Language, V&L)模型依赖于预训练的视觉编码器,并利用相对较小规模的人工标注数据集(相较于网络爬取的数据)来感知视觉世界。然而,已有研究表明,大规模预训练通常能够带来更优的泛化性能。例如,CLIP(对比语言-图像预训练)在海量图像-标题配对数据上进行训练,已在多种视觉任务中展现出强大的零样本(zero-shot)能力。为了进一步探究CLIP所带来的优势,本文提出在两类典型场景下将CLIP作为视觉编码器集成到多种V&L模型中:1)将CLIP嵌入特定任务的微调流程中;2)将CLIP与V&L预训练相结合,并迁移到下游任务。实验结果表明,CLIP显著优于广泛使用的、基于领域内人工标注数据训练的视觉编码器(如Bottom-Up-Top-Down)。我们在多个V&L任务上取得了具有竞争力甚至更优的性能,尤其在视觉问答(Visual Question Answering)、视觉蕴含(Visual Entailment)以及视觉语言导航(V&L Navigation)任务上达到了新的最先进水平。相关代码已开源,地址为:https://github.com/clip-vil/CLIP-ViL。

代码仓库

clip-vil/CLIP-ViL
官方
pytorch
GitHub 中提及
facebookresearch/reliable_vqa
pytorch
GitHub 中提及
jianjieluo/openai-clip-feature
pytorch
GitHub 中提及
gchhablani/multilingual-vqa
jax
GitHub 中提及

基准测试

基准方法指标
vision-and-language-navigation-on-rxrCLEAR-CLIP
ndtw: 53.69
visual-entailment-on-snli-ve-valCLIP-ViL
Accuracy: 80.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP 能为视觉-语言任务带来多大提升? | 论文 | HyperAI超神经