3 个月前

无序盒子离散化网络在多方向场景文本检测中的能力探索

无序盒子离散化网络在多方向场景文本检测中的能力探索

摘要

多方向场景文本检测近年来受到广泛关注。以往的方法通常直接预测文本单词或文本行,多采用四边形(quadrilateral)形状进行表示。然而,这些方法往往忽视了标签一致性的重要性,而标签一致性对于保持训练过程的稳定性至关重要,尤其是在数据量庞大的情况下。为此,本文提出一种新方法——无序框离散化(Orderless Box Discretization, OBD),该方法首先将四边形边界框离散化为若干关键边,以涵盖所有可能的水平与垂直位置信息。为精确恢复顶点坐标,我们设计了一种简洁而高效的关键匹配机制,用于重构四边形边界框。该方法有效解决了此前存在的歧义问题,显著提升了模型的学习效果。通过大量消融实验,我们从定量角度验证了所提方法的有效性。更重要的是,基于OBD框架,本文对一系列优化策略的影响进行了深入分析,为后续构建顶尖文本检测器提供了有益启示。结合OBD与这些有效改进策略,我们在多个主流基准数据集上均取得了当前最优性能,涵盖ICDAR 2015与MLT。此外,该方法在最近举行的ICDAR2019鲁棒阅读挑战赛(Robust Reading Challenge)中,于“路牌中文文本检测”任务中荣获第一名,进一步证明了其卓越的性能表现。相关代码已开源,地址为:https://git.io/TextDet。

代码仓库

基准测试

基准方法指标
scene-text-detection-on-icdar-2015SBD
F-Measure: 90.1
Precision: 92.1
Recall: 88.2
scene-text-detection-on-icdar-2017-mlt-1SBD
F-Measure: 79.47%
Precision: 82.75
Recall: 76.44

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无序盒子离散化网络在多方向场景文本检测中的能力探索 | 论文 | HyperAI超神经