
摘要
图表问答(CQA)是一项用于评估图表理解的任务,其本质与理解自然图像不同。CQA需要分析图表中文字和视觉元素之间的关系,以回答一般性问题或推断数值。现有的大多数CQA数据集和模型基于简化假设,这些假设往往能够使机器性能超越人类。在本研究中,我们针对这一结果提出了一种新的模型,该模型联合学习分类和回归。我们的语言-视觉框架使用协同注意力变换器来捕捉问题与文字元素之间复杂的现实世界交互。我们在现实的PlotQA数据集上进行了广泛的实验验证了我们的设计,在该数据集上的表现显著优于先前的方法,同时在FigureQA数据集上也展示了具有竞争力的性能。我们的模型特别适用于需要回归的真实问题,尤其是那些包含词汇表外答案的问题。
代码仓库
levymsn/cqa-crct
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chart-question-answering-on-plotqa | CRCT | 1:1 Accuracy: 55.7 |
| visual-question-answering-on-figureqa-test-1 | CRCT | 1:1 Accuracy: 94.23 |
| visual-question-answering-on-plotqa-d1 | CRCT | 1:1 Accuracy: 76.94 |
| visual-question-answering-on-plotqa-d2 | CRCT | 1:1 Accuracy: 34.44 |