Mingxin HuangYuliang LiuZhenghao PengChongyu LiuDahua LinShenggao ZhuNicholas YuanKai DingLianwen Jin

摘要
近年来,端到端场景文本定位(scene text spotting)因成功挖掘文本检测与识别任务之间的内在协同关系而受到广泛关注。然而,当前最先进的方法通常仅通过共享主干网络来融合检测与识别,未能直接利用两项任务之间的特征交互优势。为此,本文提出一种新型端到端场景文本定位框架——SwinTextSpotter。该框架采用基于动态头(dynamic head)的Transformer编码器作为检测器,并引入一种新颖的“识别转换”(Recognition Conversion)机制,通过识别损失显式引导文本定位,从而实现检测与识别任务的统一建模。该设计简洁高效,无需额外的文本校正模块,也无需字符级标注即可处理任意形状文本。在多方向文本数据集RoIC13和ICDAR 2015、任意形状文本数据集Total-Text和CTW1500,以及多语言数据集ReCTS(中文)和VinText(越南语)上的定性与定量实验表明,SwinTextSpotter显著优于现有方法。代码已开源,地址为:https://github.com/mxin262/SwinTextSpotter。
代码仓库
jacobtyo/swintextspotter
pytorch
GitHub 中提及
mxin262/swintextspotter
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-spotting-on-icdar-2015 | SwinTextSpotter | F-measure (%) - Generic Lexicon: 70.5 F-measure (%) - Strong Lexicon: 83.9 F-measure (%) - Weak Lexicon: 77.3 |
| text-spotting-on-inverse-text | SwinTextSpotter | F-measure (%) - Full Lexicon: 67.9 F-measure (%) - No Lexicon: 55.4 |
| text-spotting-on-scut-ctw1500 | SwinTextSpotter | F-Measure (%) - Full Lexicon: 77.0 F-measure (%) - No Lexicon: 51.8 |
| text-spotting-on-total-text | SwinTextSpotter | F-measure (%) - Full Lexicon: 84.1 F-measure (%) - No Lexicon: 74.3 |