3 个月前

在动态视频环境中对视觉-语言模型进行光学字符识别的基准测试

在动态视频环境中对视觉-语言模型进行光学字符识别的基准测试

摘要

本文提出一个开源基准,用于评估视觉-语言模型(Vision-Language Models, VLMs)在动态视频环境下的光学字符识别(Optical Character Recognition, OCR)任务表现。我们构建了一个精心筛选的数据集,包含1,477帧经人工标注的视频画面,覆盖代码编辑器、新闻播报、YouTube视频及广告等多种应用场景。本研究将三种前沿VLM模型——Claude-3、Gemini-1.5与GPT-4o,与传统OCR系统(如EasyOCR和RapidOCR)进行对比评测。评估指标包括词错误率(Word Error Rate, WER)、字符错误率(Character Error Rate, CER)以及识别准确率。实验结果揭示了VLMs在基于视频的OCR任务中的优势与局限性,表明在多数场景下,VLMs具备超越传统OCR模型的潜力。然而,模型仍面临幻觉(hallucination)、内容安全策略限制以及对遮挡或风格化文本敏感等挑战。该数据集与基准测试框架已公开发布,旨在推动相关领域的进一步研究。

代码仓库

video-db/ocr-benchmark
官方
GitHub 中提及

基准测试

基准方法指标
optical-character-recognition-ocr-on-videodbGemini-1.5 Pro
Average Accuracy: 76.13
Character Error Rate (CER): 0.2387
Word Error Rate (WER): 0.2385
optical-character-recognition-ocr-on-videodbGPT-4o
Average Accuracy: 76.22
Character Error Rate (CER): 0.2378
Word Error Rate (WER): 0.5117
optical-character-recognition-ocr-on-videodbClaude-3 Sonnet
Average Accuracy: 67.71
Character Error Rate (CER): 0.3229
Word Error Rate (WER): 0.4663
optical-character-recognition-ocr-on-videodbRapidOCR
Average Accuracy: 56.98
Character Error Rate (CER): 0.7620
Word Error Rate (WER): 0.4302
optical-character-recognition-ocr-on-videodbEasyOCR
Average Accuracy: 49.30
Character Error Rate (CER): 0.5070
Word Error Rate (WER): 0.8262

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
在动态视频环境中对视觉-语言模型进行光学字符识别的基准测试 | 论文 | HyperAI超神经