3 个月前

拓展视野:地理多样性的视觉常识推理

拓展视野:地理多样性的视觉常识推理

摘要

常识被定义为所有人共享的知识。然而,某些类型的常识性知识与文化背景和地理区域密切相关,仅在特定区域内共享。例如,婚礼仪式的场景因历史和宗教因素影响而呈现出不同的习俗,各地差异显著。然而,以往的研究工作通常忽略了这些区域性特征。本文构建了一个地理多样化的视觉常识推理数据集(Geo-Diverse Visual Commonsense Reasoning,简称 GD-VCR),用以评估视觉-语言模型在理解文化差异及地理特异性常识方面的能力。具体而言,我们选取了两种先进的视觉-语言模型——VisualBERT 和 ViLBERT,它们均在 VCR(一个标准的多模态常识推理基准)上进行训练,而该基准的数据集图像主要来自西方地区。随后,我们评估这些模型在 GD-VCR 数据集上的泛化能力,即其对非西方地区问题的解答表现。实验结果表明,两种模型在东亚、南亚和非洲等非西方地区的表现显著低于在西方地区的性能。我们进一步分析了性能差异的成因,发现性能差距在以下两类问题中尤为明显:1)涉及文化相关场景的问题,如婚礼、宗教活动和节日庆典;2)需要高层次的地理多样性常识推理,而非低层次的感知与识别能力。该研究揭示了当前视觉-语言模型在跨文化常识理解方面的局限性。相关数据集与代码已公开发布于:https://github.com/WadeYin9712/GD-VCR。

代码仓库

wadeyin9712/gd-vcr
官方
pytorch

基准测试

基准方法指标
visual-commonsense-reasoning-on-gd-vcrVisualBERT
Accuracy: 53.95
Gap (West): -10.42
visual-commonsense-reasoning-on-gd-vcrHuman
Accuracy: 88.84
visual-commonsense-reasoning-on-gd-vcrViLBERT
Accuracy: 59.99
Gap (West): -7.28
visual-commonsense-reasoning-on-gd-vcrText-only BERT
Accuracy: 35.33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
拓展视野:地理多样性的视觉常识推理 | 论文 | HyperAI超神经