
摘要
场景文本检测与识别近年来受到越来越多的研究关注。现有方法大致可分为两类:基于字符的方法和基于分割的方法。前者通常需要大量字符级标注,成本较高;后者则往往依赖复杂的处理流程,难以满足实时应用的需求。针对这一问题,本文提出了一种自适应贝塞尔曲线网络(Adaptive Bezier-Curve Network, ABCNet),主要贡献有三方面:1)首次采用参数化贝塞尔曲线对任意形状文本进行自适应拟合,有效提升了对不规则文本的建模能力;2)设计了一种新型的贝塞尔对齐层(BezierAlign),能够精确提取任意形状文本实例的卷积特征,在精度上显著优于以往方法;3)相较于标准边界框检测,贝塞尔曲线检测引入的计算开销几乎可以忽略不计,因而本方法在效率与精度之间实现了更优平衡。 在多个任意形状文本基准数据集(包括Total-Text和CTW1500)上的实验结果表明,ABCNet达到了当前最优的检测与识别精度,同时显著提升了运行速度。特别地,在Total-Text数据集上,其实时版本的推理速度比近期最先进的方法快逾10倍,且保持了具有竞争力的识别准确率。相关代码已开源,地址为:https://tinyurl.com/AdelaiDet。
代码仓库
zhubinQAQ/Ins
pytorch
GitHub 中提及
zhaozhijie1997/Unifed-Lane-and-Traffic-Sign-detection
pytorch
GitHub 中提及
blueardour/AdelaiDet
pytorch
GitHub 中提及
Yuliang-Liu/bezier_curve_text_spotting
pytorch
GitHub 中提及
Pxtri2156/AdelaiDet_v2
pytorch
GitHub 中提及
aim-uofa/AdelaiDet
官方
pytorch
GitHub 中提及
quangvy2703/ABCNet-ESRGAN-SRTEXT
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-spotting-on-inverse-text | ABCNet | F-measure (%) - Full Lexicon: 34.3 F-measure (%) - No Lexicon: 22.2 |