4 个月前

ChartQA:一个用于图表问答的基准,涉及视觉和逻辑推理

ChartQA:一个用于图表问答的基准,涉及视觉和逻辑推理

摘要

图表在数据分析中非常受欢迎。在探索图表时,人们经常提出涉及多个逻辑和算术操作的复杂推理问题。他们的问题通常还会引用图表的视觉特征。然而,大多数现有的数据集并未专注于此类复杂推理问题,因为这些问题基于模板生成,答案来自固定的词汇表。在这项工作中,我们介绍了一个大规模基准测试,涵盖了9600个人工编写的问题以及从人工编写的图表摘要中生成的23100个问题。为了解决我们在基准测试中遇到的独特挑战,即涉及图表的视觉和逻辑推理问题,我们提出了两种基于变压器(Transformer)的模型,这些模型以统一的方式结合了视觉特征和图表的数据表来回答问题。尽管我们的模型在先前的数据集和我们的基准测试上均取得了最先进的成果,但评估也揭示了回答复杂推理问题时面临的若干挑战。

代码仓库

vis-nlp/chartqa
官方
pytorch

基准测试

基准方法指标
chart-question-answering-on-chartqaVisionTapas-OCR
1:1 Accuracy: 45.5
chart-question-answering-on-plotqaVisionTapas-OCR
1:1 Accuracy: 53.9
chart-question-answering-on-plotqaVL-T5-OCR
1:1 Accuracy: 66.0
chart-question-answering-on-realcqacrct - baseline
1:1 Accuracy: 0.178733575026565

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ChartQA:一个用于图表问答的基准,涉及视觉和逻辑推理 | 论文 | HyperAI超神经