3 个月前

CREPE:视觉-语言基础模型能否进行组合性推理?

CREPE:视觉-语言基础模型能否进行组合性推理?

摘要

人类视觉与自然语言的一个基本共性在于其组合性(compositional nature)。然而,尽管大规模视觉与语言预训练在性能上带来了显著提升,我们发现:在四种不同算法、基于大规模数据集训练的七种架构中,这些模型在处理组合性任务时仍存在明显困难。为得出这一结论,我们提出了一个新的组合性评估基准——CREPE(Compositionality REtrieval Evaluation),该基准基于认知科学文献中识别出的组合性的两个核心维度:系统性(systematicity)与生成性(productivity)。为评估系统性,CREPE 构建了一个包含超过 37 万张图像-文本对的测试数据集,并设计了三种“已见-未见”(seen-unseen)划分方式,分别用于检验模型在三种主流训练数据集(CC-12M、YFCC-15M 和 LAION-400M)上训练后的表现。此外,我们还为其中部分图像-文本对生成了 32.5 万、31.6 万和 30.9 万条高难度负样本描述(hard negative captions),以增强评估的挑战性。为评估生成性,CREPE 包含 1.7 万张图像-文本对,涵盖九种不同复杂度层级,并配有 18.3 万条高难度负样本描述,其中包含原子性(atomic)、交换性(swapping)和否定性(negation)等类型干扰项。所有数据均通过重构 Visual Genome 场景图(scene graphs)与区域描述,并结合人工设计的模板与 GPT-3 生成。在系统性测试中,我们发现:当检索集中包含大量新颖组合时,模型性能持续下降,Recall@1 最多下降达 12%。在生成性测试中,随着任务复杂度的提升,模型的检索成功率显著衰减,在高复杂度条件下,其表现频繁接近随机猜测水平。上述结果在不同模型架构与训练数据规模下均保持一致,表明当前主流视觉-语言预训练模型在处理组合性任务方面仍存在根本性局限。

代码仓库

raivnlab/crepe
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-crepe-vision-languageViT-B-16 (LAION400M)
Recall@1 (HN-Atom + HN-Comp, SC): 37.01
Recall@1 (HN-Atom + HN-Comp, UC): 30.81
Recall@1 (HN-Atom, UC): 44.93
Recall@1 (HN-Comp, UC): 59.00
image-retrieval-on-crepe-vision-languageRN50 (CC12M)
Recall@1 (HN-Atom + HN-Comp, SC): 23.26
Recall@1 (HN-Atom + HN-Comp, UC): 19.96
Recall@1 (HN-Atom, UC): 34.88
Recall@1 (HN-Comp, UC): 45.27
image-retrieval-on-crepe-vision-languageViT-L-14 (LAION400M)
Recall@1 (HN-Atom + HN-Comp, SC): 39.44
Recall@1 (HN-Atom + HN-Comp, UC): 33.81
Recall@1 (HN-Atom, UC): 47.86
Recall@1 (HN-Comp, UC): 60.78
image-retrieval-on-crepe-vision-languageViT-B-32 (LAION400M)
Recall@1 (HN-Atom + HN-Comp, SC): 34.28
Recall@1 (HN-Atom + HN-Comp, UC): 28.00
Recall@1 (HN-Atom, UC): 42.75
Recall@1 (HN-Comp, UC): 54.80
image-retrieval-on-crepe-vision-languageRN101 (YFCC15M)
Recall@1 (HN-Atom + HN-Comp, SC): 22.74
Recall@1 (HN-Atom + HN-Comp, UC): 20.50
Recall@1 (HN-Atom, UC): 39.50
Recall@1 (HN-Comp, UC): 39.56
image-retrieval-on-crepe-vision-languageViT-B-16+240 (LAION400M)
Recall@1 (HN-Atom + HN-Comp, SC): 37.32
Recall@1 (HN-Atom + HN-Comp, UC): 32.26
Recall@1 (HN-Atom, UC): 46.53
Recall@1 (HN-Comp, UC): 60.19
image-retrieval-on-crepe-vision-languageRandom
Recall@1 (HN-Atom + HN-Comp, SC): 9.09
Recall@1 (HN-Atom + HN-Comp, UC): 9.09
Recall@1 (HN-Atom, UC): 20.00
Recall@1 (HN-Comp, UC): 14.29
image-retrieval-on-crepe-vision-languageRN50 (YFCC15M)
Recall@1 (HN-Atom + HN-Comp, SC): 23.38
Recall@1 (HN-Atom + HN-Comp, UC): 20.08
Recall@1 (HN-Atom, UC): 39.85
Recall@1 (HN-Comp, UC): 39.83

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CREPE:视觉-语言基础模型能否进行组合性推理? | 论文 | HyperAI超神经