3 个月前

CLIP4STR:基于预训练视觉-语言模型的场景文本识别简单基线

CLIP4STR:基于预训练视觉-语言模型的场景文本识别简单基线

摘要

预训练视觉-语言模型(Vision-Language Models, VLMs)已成为各类下游任务的默认基础模型。然而,尽管VLM在作为场景文本识别(Scene Text Recognition, STR)强大阅读器方面具有巨大潜力,当前的场景文本识别方法仍普遍偏好使用仅在单一模态(即视觉模态)上预训练的骨干网络。例如,CLIP能够稳健地识别图像中的常规文本(水平方向)以及不规则文本(旋转、弯曲、模糊或遮挡等)。基于这一优势,本文将CLIP转化为一个场景文本阅读器,提出CLIP4STR——一种基于CLIP图像编码器与文本编码器构建的简洁而高效的STR方法。该方法包含两个编码器-解码器分支:视觉分支和跨模态分支。视觉分支基于视觉特征生成初始预测,而跨模态分支则通过缓解视觉特征与文本语义之间的差异,对初始预测进行精细化修正。为充分挖掘两个分支的潜力,我们设计了一种双阶段“预测-修正”解码策略用于推理过程。在模型规模、预训练数据和训练数据等多个维度上对CLIP4STR进行扩展,其在13个STR基准测试中均取得了当前最优性能。此外,本文还开展了一项全面的实证研究,深入探讨CLIP在STR任务中适配机制的理解。本方法为未来基于VLM的STR研究建立了一个简洁而强大的基准。

代码仓库

VamosC/CLIP4STR
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-coco-textCLIP4STR-B
1:1 Accuracy: 81.1
scene-text-recognition-on-coco-textCLIP4STR-L
1:1 Accuracy: 81.9
scene-text-recognition-on-cute80CLIP4STR-L
Accuracy: 99.0
scene-text-recognition-on-cute80CLIP4STR-L (DataComp-1B)
Accuracy: 99.7
scene-text-recognition-on-cute80CLIP4STR-B
Accuracy: 99.3
scene-text-recognition-on-hostCLIP4STR-B
1:1 Accuracy: 79.8
scene-text-recognition-on-hostCLIP4STR-L
1:1 Accuracy: 82.7
scene-text-recognition-on-ic19-artCLIP4STR-L
Accuracy (%): 85.9
scene-text-recognition-on-ic19-artCLIP4STR-L (DataComp-1B)
Accuracy (%): 86.4
scene-text-recognition-on-ic19-artCLIP4STR-B
Accuracy (%): 85.8
scene-text-recognition-on-icdar2013CLIP4STR-L
Accuracy: 98.5
scene-text-recognition-on-icdar2013CLIP4STR-B
Accuracy: 98.3
scene-text-recognition-on-icdar2013CLIP4STR-L (DataComp-1B)
Accuracy: 99.0
scene-text-recognition-on-icdar2015CLIP4STR-L (DataComp-1B)
Accuracy: 91.4
scene-text-recognition-on-icdar2015CLIP4STR-L
Accuracy: 90.8
scene-text-recognition-on-icdar2015CLIP4STR-B
Accuracy: 90.6
scene-text-recognition-on-iiit5kCLIP4STR-B (DataComp-1B)
Accuracy: 99.5
scene-text-recognition-on-iiit5kCLIP4STR-L
Accuracy: 99.5
scene-text-recognition-on-iiit5kCLIP4STR-B
Accuracy: 99.2
scene-text-recognition-on-iiit5kCLIP4STR-L (DataComp-1B)
Accuracy: 99.6
scene-text-recognition-on-svtCLIP4STR-L
Accuracy: 98.5
scene-text-recognition-on-svtCLIP4STR-B
Accuracy: 98.3
scene-text-recognition-on-svtCLIP4STR-H (DFN-5B)
Accuracy: 99.1
scene-text-recognition-on-svtCLIP4STR-L (DataComp-1B)
Accuracy: 98.6
scene-text-recognition-on-svtpCLIP4STR-L
Accuracy: 97.4
scene-text-recognition-on-svtpCLIP4STR-B
Accuracy: 97.2
scene-text-recognition-on-svtpCLIP4STR-L (DataComp-1B)
Accuracy: 98.1
scene-text-recognition-on-uber-textCLIP4STR-L (DataComp-1B)
Accuracy (%): 92.2
scene-text-recognition-on-uber-textCLIP4STR-B
Accuracy (%): 86.8
scene-text-recognition-on-wostCLIP4STR-L
1:1 Accuracy: 88.8
scene-text-recognition-on-wostCLIP4STR-H (DFN-5B)
1:1 Accuracy: 90.9
scene-text-recognition-on-wostCLIP4STR-B
1:1 Accuracy: 87.0
scene-text-recognition-on-wostCLIP4STR-L (DataComp-1B)
1:1 Accuracy: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CLIP4STR:基于预训练视觉-语言模型的场景文本识别简单基线 | 论文 | HyperAI超神经