3 个月前

多模态文本识别网络:视觉特征与语义特征之间的交互增强

多模态文本识别网络:视觉特征与语义特征之间的交互增强

摘要

语言学知识通过为字符序列提供语义信息,在场景文本识别任务中带来了显著收益。然而,由于以往方法仅将语言学知识独立应用于输出序列,未能充分利用语义信息来理解视觉线索,从而限制了其在文本识别中的潜力。本文提出一种新型方法——多模态文本识别网络(Multi-modAl Text Recognition Network, MATRN),通过促进视觉与语义特征之间的交互,显著提升识别性能。具体而言,MATRN识别视觉与语义特征的对应关系,并将空间信息编码至语义特征中。基于该空间编码,模型通过参考另一模态的相关特征,对视觉与语义特征进行增强。此外,MATRN在训练阶段通过隐藏与字符相关的视觉线索,主动引导语义特征融入视觉特征,从而强化语义引导的视觉理解能力。实验结果表明,MATRN在七个基准数据集上均取得显著优于现有方法的性能,大幅领先于简单融合双模态信息的基线方法。消融实验进一步验证了所提组件的有效性。项目代码已开源,地址为:https://github.com/wp03052/MATRN。

代码仓库

byeonghu-na/matrn
pytorch
GitHub 中提及
wp03052/MATRN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-cute80MATRN
Accuracy: 93.5
scene-text-recognition-on-icdar2013MATRN
Accuracy: 97.9
scene-text-recognition-on-icdar2015MATRN
Accuracy: 86.6
scene-text-recognition-on-iiit5kMATRN
Accuracy: 96.6
scene-text-recognition-on-svtMATRN
Accuracy: 95
scene-text-recognition-on-svtpMATRN
Accuracy: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态文本识别网络:视觉特征与语义特征之间的交互增强 | 论文 | HyperAI超神经