XiaRenqiu ; PengHaoyang ; YeHancheng ; LiMingsheng ; YanXiangchao ; YePeng ; ShiBotian ; QiaoYu ; YanJunchi ; ZhangBo

摘要
图表在各个科学领域的文献中十分常见,能够向读者传达丰富且易于获取的信息。目前与图表相关的任务主要集中在两个方面:一是从视觉图表中提取信息的图表感知,二是基于提取的数据(例如以表格形式)进行图表推理。本文介绍了一种名为StructChart的新框架,该框架利用结构化三元组表示(STR)实现了一个统一且标签高效的图表感知和推理方法,该方法不仅适用于不同的下游任务,而且超越了同行研究中特别关注的问题回答任务。具体而言,StructChart首先将图表数据从线性化的CSV格式重新表述为STR,这可以有效地缩小图表感知与推理之间的任务差距。接着,我们提出了一种面向结构化图表的表示度量(SCRM),用于定量评估图表感知任务的性能。为了增强训练效果,我们进一步探索了大型语言模型(LLMs)在增加图表视觉样式和统计信息多样性方面的潜力。大量实验表明,在各种与图表相关的任务中,统一的图表感知-推理范式展示了其有效性和潜力,推动了图表理解的前沿发展。
代码仓库
alpha-innovator/chartvlm
pytorch
GitHub 中提及
unimodal4reasoning/simchart9k
官方
GitHub 中提及
unimodal4reasoning/chartvlm
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | StructChart+GPT3.5 (STR) | 1:1 Accuracy: 60.7 |
| chart-question-answering-on-chartqa | StructChart+GPT3.5 (STR ChartQA+SimChart9K) | 1:1 Accuracy: 65.3 |