3 个月前

视觉语义促进场景文本识别中的文本推理

视觉语义促进场景文本识别中的文本推理

摘要

现有的场景文本识别(Scene Text Recognition, STR)方法通常利用语言模型来优化视觉识别(Visual Recognition, VR)模型所预测的一维字符序列的联合概率,然而这类方法忽略了字符实例内部及之间的二维视觉语义空间上下文信息,导致其在识别任意形状文本时泛化能力较差。为解决这一问题,本文首次提出基于视觉语义进行文本推理的范式。技术上,给定VR模型预测的字符分割图,我们为每个字符实例构建一个子图:图中的节点代表该实例内的像素,边则根据像素间的空间相似性进行连接。随后,通过根节点将这些子图依次连接并合并为一个完整的图结构。基于该图结构,我们设计了一种图卷积网络用于文本推理(Graph-based Textual Reasoning, GTR),并通过交叉熵损失进行监督训练。由于具备更强的文本推理能力,GTR可无缝集成至主流STR模型中以提升性能。具体而言,我们构建了S-GTR模型,将GTR与基于分割的STR基线模型中的语言模型并联,通过相互学习有效挖掘视觉与语言信息之间的互补性。S-GTR在六个具有挑战性的STR基准测试上取得了新的最先进性能,并展现出对多语言数据集的良好泛化能力。代码已开源,地址为:https://github.com/adeline-cs/GTR。

代码仓库

adeline-cs/GTR
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-cute80S-GTR
Accuracy: 94.7
scene-text-recognition-on-icdar2013S-GTR
Accuracy: 97.8
scene-text-recognition-on-icdar2015S-GTR
Accuracy: 87.3
scene-text-recognition-on-iiit5kS-GTR
Accuracy: 97.5
scene-text-recognition-on-svtS-GTR
Accuracy: 95.8
scene-text-recognition-on-svtpS-GTR
Accuracy: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉语义促进场景文本识别中的文本推理 | 论文 | HyperAI超神经