4 个月前

图表理解的分类-回归方法

图表理解的分类-回归方法

摘要

图表问答(CQA)是一项用于评估图表理解的任务,其本质与理解自然图像不同。CQA需要分析图表中文字和视觉元素之间的关系,以回答一般性问题或推断数值。现有的大多数CQA数据集和模型基于简化假设,这些假设往往能够使机器性能超越人类。在本研究中,我们针对这一结果提出了一种新的模型,该模型联合学习分类和回归。我们的语言-视觉框架使用协同注意力变换器来捕捉问题与文字元素之间复杂的现实世界交互。我们在现实的PlotQA数据集上进行了广泛的实验验证了我们的设计,在该数据集上的表现显著优于先前的方法,同时在FigureQA数据集上也展示了具有竞争力的性能。我们的模型特别适用于需要回归的真实问题,尤其是那些包含词汇表外答案的问题。

代码仓库

levymsn/cqa-crct
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
chart-question-answering-on-plotqaCRCT
1:1 Accuracy: 55.7
visual-question-answering-on-figureqa-test-1CRCT
1:1 Accuracy: 94.23
visual-question-answering-on-plotqa-d1CRCT
1:1 Accuracy: 76.94
visual-question-answering-on-plotqa-d2CRCT
1:1 Accuracy: 34.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图表理解的分类-回归方法 | 论文 | HyperAI超神经