
摘要
我们对图表视觉问答(QA)任务进行了全面研究,旨在解决从文档中的图表可视化中理解和提取数据所面临的挑战。尽管已有尝试通过合成图表来解决这一问题,但现有解决方案仍受到注释真实世界数据短缺的限制。为了填补这一空白,我们引入了一个针对真实世界图表的视觉问答基准和数据集,提供了对该任务的系统分析以及一种基于模板的图表问题创建的新分类法。我们的贡献还包括引入了一种新的答案类型——“列表”(list),包括有序和无序两种变体。本研究基于来自科学文献的真实世界图表数据集展开,展示了比其他研究更高的视觉复杂度。我们重点关注基于模板的问答任务及其作为评估模型一阶逻辑能力的标准的作用。我们在一个真实世界的非同分布数据集上进行的实验结果,为大规模预训练模型提供了稳健的评估,并推动了图表视觉问答及神经网络形式逻辑验证领域的发展。
代码仓库
cse-ai-lab/RealCQA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-realcqa | vlt5 - 11th ep FineTune | 1:1 Accuracy: 0.310618012706403 |
| chart-question-answering-on-realcqa | crct- 11th ep FineTune | 1:1 Accuracy: 0.239897973990427 |