3 个月前

GLIPv2:统一定位与视觉-语言理解

GLIPv2:统一定位与视觉-语言理解

摘要

我们提出 GLIPv2,一种基于视觉-语言(VL)理解的接地模型,能够同时服务于目标定位任务(如目标检测、实例分割)和视觉-语言理解任务(如视觉问答、图像描述生成)。GLIPv2 通过三个预训练任务,巧妙地统一了定位预训练与视觉-语言预训练(VLP):将短语定位作为目标检测任务的视觉-语言重构形式,引入区域-词对比学习作为新型的区域-词级别对比学习任务,并结合掩码语言建模。这种统一不仅简化了以往多阶段的 VLP 流程,还实现了定位任务与理解任务之间的相互促进与协同提升。实验结果表明,仅使用一个共享全部模型参数的 GLIPv2 模型,即可在多种定位与理解任务上达到接近当前最优(SoTA)的性能。此外,该模型在开放词汇目标检测任务中展现出(1)强大的零样本与少样本迁移能力,以及(2)在视觉-语言理解任务中卓越的定位能力。代码将发布于 https://github.com/microsoft/GLIP。

代码仓库

microsoft/GLIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-detection-on-cocoGLIPv2 (CoSwin-H, multi-scale)
box mAP: 62.4
object-detection-on-lvis-v1-0-minivalGLIPv2
box AP: 59.8
object-detection-on-odinw-full-shot-13-tasksGLIPv2
AP: 70.4
phrase-grounding-on-flickr30k-entities-testGLIPv2
R@1: 87.7
referring-expression-segmentation-onGLIPv2
Mean IoU: 61.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GLIPv2:统一定位与视觉-语言理解 | 论文 | HyperAI超神经