6 个月前

摘要

预训练视觉-语言模型（Vision-Language Models, VLMs）已成为各类下游任务的默认基础模型。然而，尽管VLM在作为场景文本识别（Scene Text Recognition, STR）强大阅读器方面具有巨大潜力，当前的场景文本识别方法仍普遍偏好使用仅在单一模态（即视觉模态）上预训练的骨干网络。例如，CLIP能够稳健地识别图像中的常规文本（水平方向）以及不规则文本（旋转、弯曲、模糊或遮挡等）。基于这一优势，本文将CLIP转化为一个场景文本阅读器，提出CLIP4STR——一种基于CLIP图像编码器与文本编码器构建的简洁而高效的STR方法。该方法包含两个编码器-解码器分支：视觉分支和跨模态分支。视觉分支基于视觉特征生成初始预测，而跨模态分支则通过缓解视觉特征与文本语义之间的差异，对初始预测进行精细化修正。为充分挖掘两个分支的潜力，我们设计了一种双阶段“预测-修正”解码策略用于推理过程。在模型规模、预训练数据和训练数据等多个维度上对CLIP4STR进行扩展，其在13个STR基准测试中均取得了当前最优性能。此外，本文还开展了一项全面的实证研究，深入探讨CLIP在STR任务中适配机制的理解。本方法为未来基于VLM的STR研究建立了一个简洁而强大的基准。

源 PDF