4 个月前

StructChart:关于视觉图表理解的模式、度量和增强方法

StructChart:关于视觉图表理解的模式、度量和增强方法

摘要

图表在各个科学领域的文献中十分常见,能够向读者传达丰富且易于获取的信息。目前与图表相关的任务主要集中在两个方面:一是从视觉图表中提取信息的图表感知,二是基于提取的数据(例如以表格形式)进行图表推理。本文介绍了一种名为StructChart的新框架,该框架利用结构化三元组表示(STR)实现了一个统一且标签高效的图表感知和推理方法,该方法不仅适用于不同的下游任务,而且超越了同行研究中特别关注的问题回答任务。具体而言,StructChart首先将图表数据从线性化的CSV格式重新表述为STR,这可以有效地缩小图表感知与推理之间的任务差距。接着,我们提出了一种面向结构化图表的表示度量(SCRM),用于定量评估图表感知任务的性能。为了增强训练效果,我们进一步探索了大型语言模型(LLMs)在增加图表视觉样式和统计信息多样性方面的潜力。大量实验表明,在各种与图表相关的任务中,统一的图表感知-推理范式展示了其有效性和潜力,推动了图表理解的前沿发展。

代码仓库

alpha-innovator/chartvlm
pytorch
GitHub 中提及
unimodal4reasoning/simchart9k
官方
GitHub 中提及
unimodal4reasoning/chartvlm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
chart-question-answering-on-chartqaStructChart+GPT3.5 (STR)
1:1 Accuracy: 60.7
chart-question-answering-on-chartqaStructChart+GPT3.5 (STR ChartQA+SimChart9K)
1:1 Accuracy: 65.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StructChart:关于视觉图表理解的模式、度量和增强方法 | 论文 | HyperAI超神经