3 个月前

RLIPv2:关系型语言-图像预训练的快速扩展

RLIPv2:关系型语言-图像预训练的快速扩展

摘要

关系型语言-图像预训练(Relational Language-Image Pre-training, RLIP)旨在将视觉表征与关系型文本对齐,从而提升计算机视觉任务中的关系推理能力。然而,受限于RLIPv1架构收敛速度缓慢以及现有场景图数据集的规模有限,对RLIPv1进行规模化扩展面临较大挑战。本文提出RLIPv2,一种具备快速收敛特性的模型,能够实现基于大规模伪标注场景图数据的关系型预训练扩展。为实现高效扩展,RLIPv2引入了非对称语言-图像融合(Asymmetric Language-Image Fusion, ALIF)机制,该机制通过稀疏化语言编码层,促进更早且更深层次的门控跨模态融合。ALIF在显著缩短预训练与微调时间的同时,实现了与RLIPv1相当甚至更优的性能表现。为获取大规模场景图数据,本文通过引入一个描述生成器(如BLIP)和专门设计的关系标注器(Relation Tagger),将现有的目标检测数据集扩展为包含自由形式关系标签的数据集。关系标注器负责将BLIP生成的关系文本准确分配给图像中的区域对,从而支持更大规模的关系型预训练。在人体-物体交互检测(Human-Object Interaction Detection)与场景图生成(Scene Graph Generation)任务上开展的大量实验表明,RLIPv2在全微调、少样本及零样本三种设置下均取得了当前最优的性能表现。特别地,最大的RLIPv2模型在HICO-DET数据集上无需任何微调即达到23.29 mAP,仅使用1%的训练数据即可获得32.22 mAP,而使用100%数据时更提升至45.09 mAP。相关代码与模型已公开发布于:https://github.com/JacobYuan7/RLIPv2。

代码仓库

jacobyuan7/ocn-hoi-benchmark
pytorch
GitHub 中提及
jacobyuan7/rlipv2
官方
pytorch
GitHub 中提及
jacobyuan7/rlip
pytorch
GitHub 中提及

基准测试

基准方法指标
human-object-interaction-detection-on-hicoRLIPv2 (Swin-L)
mAP: 45.09
human-object-interaction-detection-on-v-cocoRLIPv2
AP(S1): 72.1
AP(S2): 74.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RLIPv2:关系型语言-图像预训练的快速扩展 | 论文 | HyperAI超神经