Dezhi PengXinyu WangYuliang LiuJiaxin ZhangMingxin HuangSongxuan LaiShenggao ZhuJing LiDahua LinChunhua ShenXiang BaiLianwen Jin

摘要
现有的场景文本检测与识别(即端到端文本检测与识别)方法依赖于成本较高的边界框标注(如文本行级、词级或字符级边界框)。本文首次证明,场景文本检测与识别模型的训练可仅通过为每个实例标注一个点(单点标注)这一极低成本的标注方式实现。我们提出了一种端到端的场景文本检测与识别方法,将该任务建模为序列预测问题。给定一张图像作为输入,我们将期望的检测与识别结果表示为离散标记(token)序列,并采用自回归Transformer模型进行序列预测。所提出的方法结构简洁且效果优异,在多个广泛使用的基准测试中均达到了当前最优性能。尤为重要的是,我们发现模型性能对点标注的位置不敏感,这意味着该标注方式远比需要精确位置的边界框标注更易于人工标注,甚至可实现自动化生成。我们相信,这一开创性尝试为场景文本检测与识别技术的应用拓展至以往难以实现的大规模场景提供了重要机遇。代码已开源,地址为:https://github.com/shannanyinxiang/SPTS。
代码仓库
shannanyinxiang/spts
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-spotting-on-icdar-2015 | SPTS | F-measure (%) - Generic Lexicon: 65.8 F-measure (%) - Strong Lexicon: 77.5 F-measure (%) - Weak Lexicon: 70.2 |
| text-spotting-on-inverse-text | SPTS | F-measure (%) - Full Lexicon: 46.2 F-measure (%) - No Lexicon: 38.3 |
| text-spotting-on-scut-ctw1500 | SPTS | F-Measure (%) - Full Lexicon: 83.8 F-measure (%) - No Lexicon: 63.6 |