Command Palette
Search for a command to run...

摘要
对大型多模态模型(LMMs)的光学字符识别(OCR)能力进行评分引起了越来越多的关注。现有的基准测试已经突显了LMMs在文本识别方面的卓越表现;然而,它们在某些具有挑战性的任务上的能力,如文本定位、手写内容提取和逻辑推理,仍需进一步探索。为了填补这一空白,我们推出了OCRBench v2,这是一个大规模的双语文本中心基准测试,目前拥有最全面的任务集(比之前的多场景基准测试OCRBench多出4倍的任务),覆盖最广泛的场景(31种多样化的场景),并配备了详尽的评估指标,包括10,000个人工验证的问答对和高比例的难题样本。此外,我们构建了一个包含1,500张人工标注图像的私有测试集。在公共和私有测试集中观察到的一致评估趋势验证了OCRBench v2的可靠性。经过仔细的基准测试,我们发现大多数最先进的LMMs得分低于50(总分为100),并且存在五类局限性,包括少见文本识别、细粒度感知、布局感知、复杂元素解析和逻辑推理。项目网站为:https://99franklin.github.io/ocrbench_v2/
代码仓库
yuliang-liu/multimodalocr
官方
pytorch
GitHub 中提及