
摘要
理解图表等数据可视化内容需要对视觉元素与数值信息进行综合推理。尽管当前的图表视觉问答(Chart VQA)模型在提取类问题上表现良好,但在复杂推理类问题上仍存在明显不足。为此,本文通过数据增强的方法提升模型的推理能力。我们利用具备强大推理能力的大语言模型(LLM)作为自动数据标注工具,为图表图像生成问答标注数据。本方法的核心创新在于“分步合成”(Synthesize Step-by-Step)策略:基于LLM的数据生成器能够将复杂问题分解为一系列逐步推导的子问题(即推理过程),并借助外部工具(如Python)逐步求解,最终得出答案。该分步生成过程在基于模板的问答生成流水线所构建的合成数据上进行训练。实验结果表明,所提出的分步生成策略具有显著效果。通过使用LLM增强的数据(LAMENDA)进行训练,我们显著提升了图表VQA模型的性能,在ChartQA与PlotQA两个数据集上均达到了当前最优水平。尤其值得注意的是,在ChartQA数据集中,针对人工编写的需强推理能力的问题,我们的方法将此前最优模型的准确率从38%提升至54%。我们期望本工作能够凸显合成数据的巨大潜力,并推动基于大语言模型的数据增强技术在高推理需求任务中的进一步探索与应用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-chartqa | MatCha4096 + LaMenDa | 1:1 Accuracy: 72.64 |
| chart-question-answering-on-plotqa | MatCha4096 + LaMenDa | 1:1 Accuracy: 92.89 |
| visual-question-answering-on-plotqa-d1 | MatCha4096 + LaMenDa | 1:1 Accuracy: 93.94 |
| visual-question-answering-on-plotqa-d1-1 | MatCha4096 + LaMenDa | 1:1 Accuracy: 93.94 |
| visual-question-answering-on-plotqa-d2 | MatCha4096 + LaMenDa | 1:1 Accuracy: 91.84 |
| visual-question-answering-on-plotqa-d2-1 | MatCha4096 + LaMenDa | 1:1 Accuracy: 91.84 |