
摘要
文本不规则性给场景文本识别器带来了重大挑战。基于薄板样条(Thin-Plate Spline, TPS)的校正方法被广泛认为是应对此类问题的有效手段。然而,当前TPS变换参数的计算完全依赖于回归得到的文本边界质量,忽视了文本内容信息,导致在处理严重扭曲的文本时,校正效果往往不理想。为此,本文提出TPS++,首次将注意力机制引入文本校正过程,构建了一种增强型TPS变换方法。TPS++将参数计算建模为前景控制点回归与基于内容的注意力得分估计的联合过程,其中注意力得分由专门设计的门控注意力模块(gated-attention block)进行计算。该方法构建了一个更具灵活性的内容感知型校正器,能够生成更自然、更易于后续识别器理解的文本校正结果。此外,TPS++部分共享识别器的特征主干网络,并在特征层面而非图像层面执行校正操作,因此仅带来极小的参数量和推理时间开销。在多个公开基准数据集上的实验表明,TPS++在文本识别性能上持续提升,达到了当前最优水平;同时,其在不同主干网络和识别器架构上均表现出良好的泛化能力。代码已开源,地址为:https://github.com/simplify23/TPS_PP。
代码仓库
simplify23/tps_pp
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-recognition-on-cute80 | NRTR+TPS++ | Accuracy: 92.4 |
| scene-text-recognition-on-ic13 | ABINet-LV+TPS++ | Accuracy: 97.8 |
| scene-text-recognition-on-svt | NRTR+TPS++ | Accuracy: 94.6 |
| scene-text-recognition-on-svt-p | ABINet-LV+TPS++ | Accuracy: 89.6 |