8 个月前

多模态表征

计算机视觉

Chenyu Zhang Benjamin Van Durme Zhuowan Li* Elias Stengel-Eskin*

摘要

我们对物体的常识性知识包括它们典型的视觉属性；我们知道香蕉通常是黄色或绿色，而不是紫色。文本和图像语料库由于受到报告偏差的影响，对这种世界知识的忠实度各不相同。在本文中，我们研究了单模态（仅语言）模型和多模态（图像和语言）模型在多大程度上能够捕捉到广泛存在的视觉显著属性。为此，我们创建了一个涵盖超过5000个对象的五种属性类型（颜色、形状、材质、大小和视觉共现）的视觉常识测试（ViComTe）数据集。我们通过展示我们的基于实际的颜色数据与Paik等人（2021年）提供的众包颜色判断结果的相关性远高于未基于实际的纯文本数据来验证该数据集的有效性。随后，我们利用该数据集评估了预训练的单模态模型和多模态模型。研究结果表明，多模态模型在重建属性分布方面表现更好，但仍受报告偏差的影响。此外，增加模型规模并不能提高性能，这表明视觉常识的关键在于数据本身。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Chenyu Zhang Benjamin Van Durme Zhuowan Li* Elias Stengel-Eskin*

摘要

我们对物体的常识性知识包括它们典型的视觉属性；我们知道香蕉通常是黄色或绿色，而不是紫色。文本和图像语料库由于受到报告偏差的影响，对这种世界知识的忠实度各不相同。在本文中，我们研究了单模态（仅语言）模型和多模态（图像和语言）模型在多大程度上能够捕捉到广泛存在的视觉显著属性。为此，我们创建了一个涵盖超过5000个对象的五种属性类型（颜色、形状、材质、大小和视觉共现）的视觉常识测试（ViComTe）数据集。我们通过展示我们的基于实际的颜色数据与Paik等人（2021年）提供的众包颜色判断结果的相关性远高于未基于实际的纯文本数据来验证该数据集的有效性。随后，我们利用该数据集评估了预训练的单模态模型和多模态模型。研究结果表明，多模态模型在重建属性分布方面表现更好，但仍受报告偏差的影响。此外，增加模型规模并不能提高性能，这表明视觉常识的关键在于数据本身。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供