
摘要
图表在数据分析中非常受欢迎。在探索图表时,人们经常提出涉及多个逻辑和算术操作的复杂推理问题。他们的问题通常还会引用图表的视觉特征。然而,大多数现有的数据集并未专注于此类复杂推理问题,因为这些问题基于模板生成,答案来自固定的词汇表。在这项工作中,我们介绍了一个大规模基准测试,涵盖了9600个人工编写的问题以及从人工编写的图表摘要中生成的23100个问题。为了解决我们在基准测试中遇到的独特挑战,即涉及图表的视觉和逻辑推理问题,我们提出了两种基于变压器(Transformer)的模型,这些模型以统一的方式结合了视觉特征和图表的数据表来回答问题。尽管我们的模型在先前的数据集和我们的基准测试上均取得了最先进的成果,但评估也揭示了回答复杂推理问题时面临的若干挑战。
代码仓库
vis-nlp/chartqa
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | VisionTapas-OCR | 1:1 Accuracy: 45.5 |
| chart-question-answering-on-plotqa | VisionTapas-OCR | 1:1 Accuracy: 53.9 |
| chart-question-answering-on-plotqa | VL-T5-OCR | 1:1 Accuracy: 66.0 |
| chart-question-answering-on-realcqa | crct - baseline | 1:1 Accuracy: 0.178733575026565 |