
摘要
图表在数据分析、关键洞察可视化以及回答关于数据的复杂推理问题方面非常受欢迎。为了利用自然语言促进基于图表的数据分析,最近引入了几个下游任务,如图表问答和图表总结。然而,大多数解决这些任务的方法都是在语言或视觉-语言任务上进行预训练,而没有尝试显式建模图表的结构(例如,数据如何以视觉形式编码以及图表元素之间如何关联)。为了解决这一问题,我们首先构建了一个涵盖广泛主题和视觉风格的大规模图表语料库。然后,我们介绍了 UniChart,这是一种用于图表理解和推理的预训练模型。UniChart 对图表中的相关文本、数据和视觉元素进行编码,并使用基于图表的文本解码器生成自然语言中的预期输出。我们提出了几个特定于图表的预训练任务,包括:(i) 低级任务,用于从图表中提取视觉元素(例如条形图、折线图)和数据;(ii) 高级任务,用于获得图表理解和推理能力。我们发现,在大规模包含特定于图表的低级和高级任务的语料库上对模型进行预训练,随后在三个下游任务上进行微调,可以实现这三个下游任务上的最先进性能。
代码仓库
vis-nlp/unichart
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | UniChart | 1:1 Accuracy: 66.24 |