3 个月前

SwinTextSpotter:通过文本检测与文本识别之间更优的协同作用实现场景文本检测

SwinTextSpotter:通过文本检测与文本识别之间更优的协同作用实现场景文本检测

摘要

近年来,端到端场景文本定位(scene text spotting)因成功挖掘文本检测与识别任务之间的内在协同关系而受到广泛关注。然而,当前最先进的方法通常仅通过共享主干网络来融合检测与识别,未能直接利用两项任务之间的特征交互优势。为此,本文提出一种新型端到端场景文本定位框架——SwinTextSpotter。该框架采用基于动态头(dynamic head)的Transformer编码器作为检测器,并引入一种新颖的“识别转换”(Recognition Conversion)机制,通过识别损失显式引导文本定位,从而实现检测与识别任务的统一建模。该设计简洁高效,无需额外的文本校正模块,也无需字符级标注即可处理任意形状文本。在多方向文本数据集RoIC13和ICDAR 2015、任意形状文本数据集Total-Text和CTW1500,以及多语言数据集ReCTS(中文)和VinText(越南语)上的定性与定量实验表明,SwinTextSpotter显著优于现有方法。代码已开源,地址为:https://github.com/mxin262/SwinTextSpotter。

代码仓库

jacobtyo/swintextspotter
pytorch
GitHub 中提及
mxin262/swintextspotter
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-spotting-on-icdar-2015SwinTextSpotter
F-measure (%) - Generic Lexicon: 70.5
F-measure (%) - Strong Lexicon: 83.9
F-measure (%) - Weak Lexicon: 77.3
text-spotting-on-inverse-textSwinTextSpotter
F-measure (%) - Full Lexicon: 67.9
F-measure (%) - No Lexicon: 55.4
text-spotting-on-scut-ctw1500SwinTextSpotter
F-Measure (%) - Full Lexicon: 77.0
F-measure (%) - No Lexicon: 51.8
text-spotting-on-total-textSwinTextSpotter
F-measure (%) - Full Lexicon: 84.1
F-measure (%) - No Lexicon: 74.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SwinTextSpotter:通过文本检测与文本识别之间更优的协同作用实现场景文本检测 | 论文 | HyperAI超神经