17 天前

FigureQA:用于视觉推理的标注图像数据集

FigureQA:用于视觉推理的标注图像数据集

摘要

我们提出了FigureQA,这是一个包含超过一百万个问答对的视觉推理语料库,其内容基于超过十万张图像。这些图像为合成的、具有科学风格的图表,涵盖五类:折线图、点线图、竖直与水平条形图以及饼图。我们通过15种问题模板生成问题,构建了视觉推理任务。这些问题涉及图表中各元素之间的多种关系,考察诸如最大值、最小值、曲线下面积、平滑性以及交点等特征。解答此类问题通常需要参考多个图表元素,并综合分析分布在图表各处的信息。为便于机器学习系统的训练,该语料库还包含可用于构建辅助目标的附加数据,包括生成每张图表所用的原始数值数据,以及所有图表元素的边界框标注。我们通过训练多种模型(包括近期提出的关联网络作为强基线模型)对所提出的视觉推理任务进行了研究。初步结果表明,该任务对机器学习模型构成了显著挑战。我们期望FigureQA能够成为迈向开发能够直观从数据可视化中识别模式的智能模型的第一步。

代码仓库

vmichals/FigureQA-baseline
官方
tf
GitHub 中提及

基准测试

基准方法指标
visual-question-answering-on-figureqa-test-1RN
1:1 Accuracy: 76.52

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FigureQA:用于视觉推理的标注图像数据集 | 论文 | HyperAI超神经