4 个月前

预训练单模态和多模态模型中的视觉常识理解

预训练单模态和多模态模型中的视觉常识理解

摘要

我们对物体的常识性知识包括它们典型的视觉属性;我们知道香蕉通常是黄色或绿色,而不是紫色。文本和图像语料库由于受到报告偏差的影响,对这种世界知识的忠实度各不相同。在本文中,我们研究了单模态(仅语言)模型和多模态(图像和语言)模型在多大程度上能够捕捉到广泛存在的视觉显著属性。为此,我们创建了一个涵盖超过5000个对象的五种属性类型(颜色、形状、材质、大小和视觉共现)的视觉常识测试(ViComTe)数据集。我们通过展示我们的基于实际的颜色数据与Paik等人(2021年)提供的众包颜色判断结果的相关性远高于未基于实际的纯文本数据来验证该数据集的有效性。随后,我们利用该数据集评估了预训练的单模态模型和多模态模型。研究结果表明,多模态模型在重建属性分布方面表现更好,但仍受报告偏差的影响。此外,增加模型规模并不能提高性能,这表明视觉常识的关键在于数据本身。

代码仓库

基准测试

基准方法指标
visual-commonsense-tests-on-vicomte-colorBERT-large
Spearman's Rho: 37.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预训练单模态和多模态模型中的视觉常识理解 | 论文 | HyperAI超神经