
摘要
人类视觉与自然语言的一个基本共性在于其组合性(compositional nature)。然而,尽管大规模视觉与语言预训练在性能上带来了显著提升,我们发现:在四种不同算法、基于大规模数据集训练的七种架构中,这些模型在处理组合性任务时仍存在明显困难。为得出这一结论,我们提出了一个新的组合性评估基准——CREPE(Compositionality REtrieval Evaluation),该基准基于认知科学文献中识别出的组合性的两个核心维度:系统性(systematicity)与生成性(productivity)。为评估系统性,CREPE 构建了一个包含超过 37 万张图像-文本对的测试数据集,并设计了三种“已见-未见”(seen-unseen)划分方式,分别用于检验模型在三种主流训练数据集(CC-12M、YFCC-15M 和 LAION-400M)上训练后的表现。此外,我们还为其中部分图像-文本对生成了 32.5 万、31.6 万和 30.9 万条高难度负样本描述(hard negative captions),以增强评估的挑战性。为评估生成性,CREPE 包含 1.7 万张图像-文本对,涵盖九种不同复杂度层级,并配有 18.3 万条高难度负样本描述,其中包含原子性(atomic)、交换性(swapping)和否定性(negation)等类型干扰项。所有数据均通过重构 Visual Genome 场景图(scene graphs)与区域描述,并结合人工设计的模板与 GPT-3 生成。在系统性测试中,我们发现:当检索集中包含大量新颖组合时,模型性能持续下降,Recall@1 最多下降达 12%。在生成性测试中,随着任务复杂度的提升,模型的检索成功率显著衰减,在高复杂度条件下,其表现频繁接近随机猜测水平。上述结果在不同模型架构与训练数据规模下均保持一致,表明当前主流视觉-语言预训练模型在处理组合性任务方面仍存在根本性局限。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-crepe-vision-language | ViT-B-16 (LAION400M) | Recall@1 (HN-Atom + HN-Comp, SC): 37.01 Recall@1 (HN-Atom + HN-Comp, UC): 30.81 Recall@1 (HN-Atom, UC): 44.93 Recall@1 (HN-Comp, UC): 59.00 |
| image-retrieval-on-crepe-vision-language | RN50 (CC12M) | Recall@1 (HN-Atom + HN-Comp, SC): 23.26 Recall@1 (HN-Atom + HN-Comp, UC): 19.96 Recall@1 (HN-Atom, UC): 34.88 Recall@1 (HN-Comp, UC): 45.27 |
| image-retrieval-on-crepe-vision-language | ViT-L-14 (LAION400M) | Recall@1 (HN-Atom + HN-Comp, SC): 39.44 Recall@1 (HN-Atom + HN-Comp, UC): 33.81 Recall@1 (HN-Atom, UC): 47.86 Recall@1 (HN-Comp, UC): 60.78 |
| image-retrieval-on-crepe-vision-language | ViT-B-32 (LAION400M) | Recall@1 (HN-Atom + HN-Comp, SC): 34.28 Recall@1 (HN-Atom + HN-Comp, UC): 28.00 Recall@1 (HN-Atom, UC): 42.75 Recall@1 (HN-Comp, UC): 54.80 |
| image-retrieval-on-crepe-vision-language | RN101 (YFCC15M) | Recall@1 (HN-Atom + HN-Comp, SC): 22.74 Recall@1 (HN-Atom + HN-Comp, UC): 20.50 Recall@1 (HN-Atom, UC): 39.50 Recall@1 (HN-Comp, UC): 39.56 |
| image-retrieval-on-crepe-vision-language | ViT-B-16+240 (LAION400M) | Recall@1 (HN-Atom + HN-Comp, SC): 37.32 Recall@1 (HN-Atom + HN-Comp, UC): 32.26 Recall@1 (HN-Atom, UC): 46.53 Recall@1 (HN-Comp, UC): 60.19 |
| image-retrieval-on-crepe-vision-language | Random | Recall@1 (HN-Atom + HN-Comp, SC): 9.09 Recall@1 (HN-Atom + HN-Comp, UC): 9.09 Recall@1 (HN-Atom, UC): 20.00 Recall@1 (HN-Comp, UC): 14.29 |
| image-retrieval-on-crepe-vision-language | RN50 (YFCC15M) | Recall@1 (HN-Atom + HN-Comp, SC): 23.38 Recall@1 (HN-Atom + HN-Comp, UC): 20.08 Recall@1 (HN-Atom, UC): 39.85 Recall@1 (HN-Comp, UC): 39.83 |