6 个月前

摘要

场景文本检测与识别近年来受到越来越多的研究关注。现有方法大致可分为两类：基于字符的方法和基于分割的方法。前者通常需要大量字符级标注，成本较高；后者则往往依赖复杂的处理流程，难以满足实时应用的需求。针对这一问题，本文提出了一种自适应贝塞尔曲线网络（Adaptive Bezier-Curve Network, ABCNet），主要贡献有三方面：1）首次采用参数化贝塞尔曲线对任意形状文本进行自适应拟合，有效提升了对不规则文本的建模能力；2）设计了一种新型的贝塞尔对齐层（BezierAlign），能够精确提取任意形状文本实例的卷积特征，在精度上显著优于以往方法；3）相较于标准边界框检测，贝塞尔曲线检测引入的计算开销几乎可以忽略不计，因而本方法在效率与精度之间实现了更优平衡。在多个任意形状文本基准数据集（包括Total-Text和CTW1500）上的实验结果表明，ABCNet达到了当前最优的检测与识别精度，同时显著提升了运行速度。特别地，在Total-Text数据集上，其实时版本的推理速度比近期最先进的方法快逾10倍，且保持了具有竞争力的识别准确率。相关代码已开源，地址为：https://tinyurl.com/AdelaiDet。

源 PDF