3 个月前

IllusionVQA:面向视觉语言模型的具有挑战性的光学错觉数据集

IllusionVQA:面向视觉语言模型的具有挑战性的光学错觉数据集

摘要

视觉语言模型(Vision Language Models, VLM)的出现,使研究者能够借助自然语言来探究神经网络的视觉理解能力。除了物体分类与检测之外,VLM 还具备视觉理解与常识推理能力。这一进展自然引出了一个关键问题:当图像本身在逻辑上存在不合理性时,VLM 将如何响应?为此,我们提出了 IllusionVQA——一个包含多样且具有挑战性的视觉错觉图像与难以解读场景的大型数据集,用于测试 VLM 在两种不同类型的多项选择型视觉问答(VQA)任务中的表现:视觉理解任务与软定位(soft localization)任务。在理解任务中,表现最佳的 VLM——GPT4V 达到了 62.99% 的准确率(4 次示例学习,4-shot);而在定位任务中,其准确率为 49.7%(4-shot 与思维链推理,Chain-of-Thought)。人类评估结果显示,人类在理解任务和定位任务中的准确率分别高达 91.03% 和 100%。我们进一步发现,在定位任务中,上下文学习(In-Context Learning, ICL)与思维链推理会显著降低 Gemini-Pro 模型的性能。此外,我们还发现 VLM 的上下文学习能力存在潜在缺陷:即使正确答案已作为少样本示例(few-shot example)出现在上下文窗口中,模型仍无法识别出图像中的视觉错觉。这一现象揭示了当前 VLM 在处理非现实或悖论性视觉场景时的深层局限性。

代码仓库

csebuetnlp/illusionvqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-localization-on-illusionvqaGPT4-Vision 4-shot+CoT
Accuracy: 49.7
object-localization-on-illusionvqaGPT4-Vision
Accuracy: 40
object-localization-on-illusionvqaGemini-Pro 4-shot
Accuracy: 41.8
object-localization-on-illusionvqaInstructBLIP-13B
Accuracy: 24.3
object-localization-on-illusionvqaLLaVA-1.5-13B
Accuracy: 24.8
object-localization-on-illusionvqaCogVLM
Accuracy: 28
object-localization-on-illusionvqaGemini-Pro
Accuracy: 43.5
object-localization-on-illusionvqaGPT4-Vision 4-shot
Accuracy: 46
object-localization-on-illusionvqaGemini-Pro 4-shot+CoT
Accuracy: 33.9
visual-question-answering-vqa-on-illusionvqaGPT4-Vision
Accuracy: 58.85
visual-question-answering-vqa-on-illusionvqaLLaVA-1.5-13B
Accuracy: 40
visual-question-answering-vqa-on-illusionvqaGemini-Pro
Accuracy: 51.26
visual-question-answering-vqa-on-illusionvqaInstructBLIP-13B
Accuracy: 34.25
visual-question-answering-vqa-on-illusionvqaGemini-Pro 4-shot
Accuracy: 52.87
visual-question-answering-vqa-on-illusionvqaCogVLM
Accuracy: 38.16
visual-question-answering-vqa-on-illusionvqaGPT4-Vision 4-shot
Accuracy: 62.99

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供