
摘要
语言学知识通过为字符序列提供语义信息,在场景文本识别任务中带来了显著收益。然而,由于以往方法仅将语言学知识独立应用于输出序列,未能充分利用语义信息来理解视觉线索,从而限制了其在文本识别中的潜力。本文提出一种新型方法——多模态文本识别网络(Multi-modAl Text Recognition Network, MATRN),通过促进视觉与语义特征之间的交互,显著提升识别性能。具体而言,MATRN识别视觉与语义特征的对应关系,并将空间信息编码至语义特征中。基于该空间编码,模型通过参考另一模态的相关特征,对视觉与语义特征进行增强。此外,MATRN在训练阶段通过隐藏与字符相关的视觉线索,主动引导语义特征融入视觉特征,从而强化语义引导的视觉理解能力。实验结果表明,MATRN在七个基准数据集上均取得显著优于现有方法的性能,大幅领先于简单融合双模态信息的基线方法。消融实验进一步验证了所提组件的有效性。项目代码已开源,地址为:https://github.com/wp03052/MATRN。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-cute80 | MATRN | Accuracy: 93.5 |
| scene-text-recognition-on-icdar2013 | MATRN | Accuracy: 97.9 |
| scene-text-recognition-on-icdar2015 | MATRN | Accuracy: 86.6 |
| scene-text-recognition-on-iiit5k | MATRN | Accuracy: 96.6 |
| scene-text-recognition-on-svt | MATRN | Accuracy: 95 |
| scene-text-recognition-on-svtp | MATRN | Accuracy: 90.6 |