4 个月前

使用MATH-Vision数据集测量多模态数学推理能力

使用MATH-Vision数据集测量多模态数学推理能力

摘要

近期在大型多模态模型(LMMs)领域的进展显示,这些模型在视觉情境中的数学推理方面取得了令人鼓舞的结果,其性能在现有的基准测试如MathVista上已接近人类水平。然而,我们发现这些基准测试中问题的多样性和涵盖的主题范围存在显著局限。为了解决这一问题,我们推出了MATH-Vision(MATH-V)数据集,这是一套精心整理的包含3,040个高质量数学问题的数据集,这些问题均来源于真实的数学竞赛,并具有视觉情境。该数据集涵盖了16个不同的数学学科,并按5个难度等级进行了分级,为评估LMMs的数学推理能力提供了全面且多样的挑战。通过广泛的实验,我们揭示了当前LMMs在MATH-V上的表现与人类表现之间存在明显的差距,突显了进一步发展LMMs的必要性。此外,我们的详细分类允许对LMMs进行深入的错误分析,为未来的研发提供了宝贵的见解。该项目可在https://mathvision-cuhk.github.io 获取。

代码仓库

mathllm/math-v
GitHub 中提及

基准测试

基准方法指标
multimodal-reasoning-on-math-vInternLM-XComposer2-VL
Accuracy: 14.54
multimodal-reasoning-on-math-vGemini Pro
Accuracy: 17.66
multimodal-reasoning-on-math-vQwen-VL-Max
Accuracy: 15.59
multimodal-reasoning-on-math-vGPT4V
Accuracy: 22.76

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用MATH-Vision数据集测量多模态数学推理能力 | 论文 | HyperAI超神经