3 个月前

CDistNet:用于鲁棒文本识别的多领域字符距离感知方法

CDistNet:用于鲁棒文本识别的多领域字符距离感知方法

摘要

基于Transformer的编码器-解码器框架在场景文本识别领域日益流行,主要因其能够自然地融合来自视觉与语义两个域的识别线索。然而,近期研究表明,这两类线索在实际任务中并不总是能够良好对齐,尤其在面对罕见字形等困难文本时,特征与字符之间容易出现错位。为此,已有研究引入字符位置等约束以缓解该问题。尽管取得一定成效,视觉与语义信息仍被分别建模,二者仅以松散方式关联。本文提出一种新型模块——多域字符距离感知模块(Multi-Domain Character Distance Perception, MDCDP),旨在建立视觉与语义相关联的位置嵌入。MDCDP利用位置嵌入通过交叉注意力机制同时查询视觉特征与语义特征,将两类线索融合至位置分支中,生成一种具备内容感知能力的嵌入表示,能够有效捕捉字符间距与方向变化、字符间的语义关联性,以及连接两类信息的潜在线索。这些综合特性被统称为“多域字符距离”。基于该模块,我们构建了CDistNet,通过堆叠多个MDCDP实现逐步精细化的距离建模。该设计使得在面对各种识别挑战时,特征与字符之间的对齐关系仍能被有效建立。我们在十个具有挑战性的公开数据集以及我们自建的两组增强数据集上对CDistNet进行了验证。实验结果表明,CDistNet表现极为出色:不仅在标准基准测试中位居前列,而且在存在严重文本形变、语言支持薄弱及罕见字符布局等复杂场景的真实与增强数据集上,显著优于近期主流方法。代码已开源,地址为:https://github.com/simplify23/CDistNet。

代码仓库

chibohe/CdistNet-pytorch
pytorch
GitHub 中提及
simplify23/CDistNet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-cute80CDistNet (Ours)
Accuracy: 89.58
scene-text-recognition-on-icdar2013CDistNet (Ours)
Accuracy: 97.67
scene-text-recognition-on-icdar2015CDistNet (Ours)
Accuracy: 86.25
scene-text-recognition-on-iiit5kCDistNet (Ours)
Accuracy: 96.57
scene-text-recognition-on-svtCDistNet (Ours)
Accuracy: 93.82
scene-text-recognition-on-svtpCDistNet (Ours)
Accuracy: 89.77

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CDistNet:用于鲁棒文本识别的多领域字符距离感知方法 | 论文 | HyperAI超神经