3 个月前

QLEVR:用于量化语言与基础视觉推理的诊断数据集

QLEVR:用于量化语言与基础视觉推理的诊断数据集

摘要

合成数据集已被成功用于探测视觉问答数据集在推理能力方面的表现。例如,CLEVR(Johnson et al., 2017)测试了多种视觉推理能力,其问题聚焦于形状、颜色和大小的比较、数值推理以及存在性判断。本文提出了一种偏差极小、具有诊断性质的视觉问答数据集——QLEVR,该数据集超越了存在性与数值量化范畴,重点关注更复杂的量化表达及其组合,例如询问图像中是否存在超过两个红色球体,且每个红色球体的尺寸均小于至少三个蓝色球体。本文详细介绍了该数据集的构建方法,并对当前最先进的视觉问答模型进行了首次评估,结果表明,QLEVR对现有模型构成了严峻挑战。代码与数据集已开源,可通过 https://github.com/zechenli03/QLEVR 获取。

代码仓库

zechenli03/qlevr
官方
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-qlevr CNN+LSTM
Overall Accuracy: 65.9
visual-question-answering-on-qlevrBERT
Overall Accuracy: 65.8
visual-question-answering-on-qlevrMAC
Overall Accuracy: 66.5
visual-question-answering-on-qlevrQ-type
Overall Accuracy: 50.0
visual-question-answering-on-qlevr LSTM
Overall Accuracy: 64.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QLEVR:用于量化语言与基础视觉推理的诊断数据集 | 论文 | HyperAI超神经