3 个月前

RegionCLIP:基于区域的语言-图像预训练

RegionCLIP:基于区域的语言-图像预训练

摘要

对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)通过图像-文本对在零样本(zero-shot)和迁移学习(transfer learning)场景下均取得了令人瞩目的图像分类性能。然而,我们发现直接将此类模型应用于目标检测中的图像区域识别时,性能表现较差,其根源在于领域偏移(domain shift):CLIP在训练过程中旨在将整张图像与文本描述进行匹配,而未能捕捉图像区域与文本片段之间的细粒度对齐关系。为缓解这一问题,我们提出一种新方法——RegionCLIP,该方法显著扩展了CLIP的能力,使其能够学习区域级别的视觉表征,从而实现图像区域与文本概念之间的细粒度对齐。我们的方法首先利用预训练的CLIP模型将图像区域与模板化文本描述进行匹配,随后在特征空间中对这些区域-文本配对进行自监督预训练。当将预训练模型迁移到开放词汇目标检测任务时,RegionCLIP在COCO和LVIS数据集上分别以3.8 AP50和2.2 AP的绝对提升显著超越现有最先进方法。此外,所学习的区域表征支持零样本目标检测推理,在COCO和LVIS数据集上均展现出优异的性能。相关代码已开源,地址为:https://github.com/microsoft/RegionCLIP。

代码仓库

microsoft/regionclip
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
open-vocabulary-object-detection-on-lvis-v1-0Region-CLIP (RN50-C4)
AP novel-LVIS base training: 17.1
open-vocabulary-object-detection-on-lvis-v1-0Region-CLIP (RN50x4-C4)
AP novel-LVIS base training: 22.0
open-vocabulary-object-detection-on-mscocoRegion-CLIP (RN50-C4)
AP 0.5: 31.4
open-vocabulary-object-detection-on-mscocoRegion-CLIP (RN50x4-C4)
AP 0.5: 39.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RegionCLIP:基于区域的语言-图像预训练 | 论文 | HyperAI超神经