
摘要
我们提出了FigureQA,这是一个包含超过一百万个问答对的视觉推理语料库,其内容基于超过十万张图像。这些图像为合成的、具有科学风格的图表,涵盖五类:折线图、点线图、竖直与水平条形图以及饼图。我们通过15种问题模板生成问题,构建了视觉推理任务。这些问题涉及图表中各元素之间的多种关系,考察诸如最大值、最小值、曲线下面积、平滑性以及交点等特征。解答此类问题通常需要参考多个图表元素,并综合分析分布在图表各处的信息。为便于机器学习系统的训练,该语料库还包含可用于构建辅助目标的附加数据,包括生成每张图表所用的原始数值数据,以及所有图表元素的边界框标注。我们通过训练多种模型(包括近期提出的关联网络作为强基线模型)对所提出的视觉推理任务进行了研究。初步结果表明,该任务对机器学习模型构成了显著挑战。我们期望FigureQA能够成为迈向开发能够直观从数据可视化中识别模式的智能模型的第一步。
代码仓库
vmichals/FigureQA-baseline
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-question-answering-on-figureqa-test-1 | RN | 1:1 Accuracy: 76.52 |