4 个月前

DePlot：通过图表到表格的转换实现一次性视觉语言推理

Liu Fangyu ; Eisenschlos Julian Martin ; Piccinno Francesco ; Krichene Syrine ; Pang Chenxi ; Lee Kenton ; Joshi Mandar ; Chen Wenhu ; Collier Nigel ; Altun Yasemin

摘要

视觉语言，如图表和曲线图，在人类世界中无处不在。理解图表和曲线图需要强大的推理能力。先前的最先进（SOTA）模型至少需要数万个训练样本，且其推理能力仍然有限，尤其是在处理复杂的自然语言查询时。本文提出了首个单次提示的视觉语言推理解决方案。我们将视觉语言推理的挑战分解为两个步骤：(1) 图表到文本的转换，以及 (2) 对转换后的文本进行推理。该方法的关键是一个模态转换模块，命名为 DePlot，它将图表或曲线图的图像转换为线性化的表格。DePlot 的输出可以直接用于提示预训练的大规模语言模型（LLM），利用 LLM 的少量样本推理能力。为了获得 DePlot，我们通过建立统一的任务格式和评估指标对图表到表格的任务进行了标准化，并在此任务上端到端地训练了 DePlot。然后，DePlot 可以与 LLM 无缝集成，以即插即用的方式使用。与在超过 28,000 个数据点上微调的最先进模型相比，仅需一次提示的 DePlot+LLM 在图表问答任务中的人类编写查询上实现了 24.0% 的性能提升。

代码仓库

huggingface/transformers

pytorch

GitHub 中提及

基准测试

基准	方法	指标
chart-question-answering-on-chartqa	DePlot+GPT3 (Self-Consistency)	1:1 Accuracy: 42.3
chart-question-answering-on-chartqa	DePlot+GPT3 (CoT)	1:1 Accuracy: 36.9
chart-question-answering-on-chartqa	DePlot+Codex (PoT Self-Consistency)	1:1 Accuracy: 76.7
chart-question-answering-on-chartqa	DePlot+FlanPaLM (CoT)	1:1 Accuracy: 67.3
chart-question-answering-on-chartqa	DePlot+FlanPaLM+Codex (PoT Self-Consistency)	1:1 Accuracy: 79.3
chart-question-answering-on-chartqa	DePlot+FlanPaLM (Self-Consistency)	1:1 Accuracy: 70.5
chart-question-answering-on-plotqa	DePlot+FlanPaLM+Codex (PoT Self-Consistency)	1:1 Accuracy: 66.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供