
摘要
在自然场景中检测小尺寸文本实例尤为具有挑战性,不规则排列位置与非理想光照条件常导致检测错误。本文提出MixNet,一种融合卷积神经网络(CNN)与Transformer优势的混合架构,能够准确检测复杂自然场景中的小尺寸文本,且不受文本方向、风格及光照条件的影响。MixNet包含两个核心模块:(1)作为主干网络的特征洗牌网络(Feature Shuffle Network, FSNet);(2)利用文本区域一维流形约束特性的中心Transformer模块(Central Transformer Block, CTBlock)。我们首次在FSNet中引入一种新颖的特征洗牌策略,促进多尺度特征间的高效交互,生成的高分辨率特征优于当前主流的ResNet与HRNet。基于FSNet的主干网络在多项现有文本检测方法(包括PAN、DB和FAST)上均取得了显著性能提升。随后,我们设计了互补的CTBlock,利用类似文本区域中轴线(medial axis)的中心线特征,在小尺寸文本密集排列的复杂场景下,表现出优于传统轮廓特征方法的检测能力。大量实验结果表明,将FSNet与CTBlock相结合的MixNet,在多个主流场景文本检测数据集上均达到了当前最优(state-of-the-art)的检测性能。
代码仓库
D641593/MixNet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-ic19-art | MixNet | H-Mean: 79.7 |
| scene-text-detection-on-msra-td500 | MixNet | F-Measure: 89.4 FPS: 15.2 Precision: 90.7 Recall: 88.1 |
| scene-text-detection-on-scut-ctw1500 | MixNet | F-Measure: 89.8 FPS: 15.2 Precision: 91.4 Recall: 88.3 |
| scene-text-detection-on-total-text | MixNet | F-Measure: 90.5% FPS: 15.2 Precision: 93.0 Recall: 88.1 |