HyperAI超神经

摘要

人类视觉与自然语言的一个基本共性在于其组合性（compositional nature）。然而，尽管大规模视觉与语言预训练在性能上带来了显著提升，我们发现：在四种不同算法、基于大规模数据集训练的七种架构中，这些模型在处理组合性任务时仍存在明显困难。为得出这一结论，我们提出了一个新的组合性评估基准——CREPE（Compositionality REtrieval Evaluation），该基准基于认知科学文献中识别出的组合性的两个核心维度：系统性（systematicity）与生成性（productivity）。为评估系统性，CREPE 构建了一个包含超过 37 万张图像-文本对的测试数据集，并设计了三种“已见-未见”（seen-unseen）划分方式，分别用于检验模型在三种主流训练数据集（CC-12M、YFCC-15M 和 LAION-400M）上训练后的表现。此外，我们还为其中部分图像-文本对生成了 32.5 万、31.6 万和 30.9 万条高难度负样本描述（hard negative captions），以增强评估的挑战性。为评估生成性，CREPE 包含 1.7 万张图像-文本对，涵盖九种不同复杂度层级，并配有 18.3 万条高难度负样本描述，其中包含原子性（atomic）、交换性（swapping）和否定性（negation）等类型干扰项。所有数据均通过重构 Visual Genome 场景图（scene graphs）与区域描述，并结合人工设计的模板与 GPT-3 生成。在系统性测试中，我们发现：当检索集中包含大量新颖组合时，模型性能持续下降，Recall@1 最多下降达 12%。在生成性测试中，随着任务复杂度的提升，模型的检索成功率显著衰减，在高复杂度条件下，其表现频繁接近随机猜测水平。上述结果在不同模型架构与训练数据规模下均保持一致，表明当前主流视觉-语言预训练模型在处理组合性任务方面仍存在根本性局限。

摘要

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CREPE：视觉-语言基础模型能否进行组合性推理？

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CREPE：视觉-语言基础模型能否进行组合性推理？

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

CREPE：视觉-语言基础模型能否进行组合性推理？

Zixian Ma Jerry Hong Mustafa Omer Gul Mona Gandhi Irena Gao Ranjay Krishna

摘要

用 AI 构建 AI

HyperAI Newsletters