3 个月前

MixNet:面向野外复杂场景文本的精准检测

MixNet:面向野外复杂场景文本的精准检测

摘要

在自然场景中检测小尺寸文本实例尤为具有挑战性,不规则排列位置与非理想光照条件常导致检测错误。本文提出MixNet,一种融合卷积神经网络(CNN)与Transformer优势的混合架构,能够准确检测复杂自然场景中的小尺寸文本,且不受文本方向、风格及光照条件的影响。MixNet包含两个核心模块:(1)作为主干网络的特征洗牌网络(Feature Shuffle Network, FSNet);(2)利用文本区域一维流形约束特性的中心Transformer模块(Central Transformer Block, CTBlock)。我们首次在FSNet中引入一种新颖的特征洗牌策略,促进多尺度特征间的高效交互,生成的高分辨率特征优于当前主流的ResNet与HRNet。基于FSNet的主干网络在多项现有文本检测方法(包括PAN、DB和FAST)上均取得了显著性能提升。随后,我们设计了互补的CTBlock,利用类似文本区域中轴线(medial axis)的中心线特征,在小尺寸文本密集排列的复杂场景下,表现出优于传统轮廓特征方法的检测能力。大量实验结果表明,将FSNet与CTBlock相结合的MixNet,在多个主流场景文本检测数据集上均达到了当前最优(state-of-the-art)的检测性能。

代码仓库

D641593/MixNet
官方
pytorch

基准测试

基准方法指标
scene-text-detection-on-ic19-artMixNet
H-Mean: 79.7
scene-text-detection-on-msra-td500MixNet
F-Measure: 89.4
FPS: 15.2
Precision: 90.7
Recall: 88.1
scene-text-detection-on-scut-ctw1500MixNet
F-Measure: 89.8
FPS: 15.2
Precision: 91.4
Recall: 88.3
scene-text-detection-on-total-textMixNet
F-Measure: 90.5%
FPS: 15.2
Precision: 93.0
Recall: 88.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MixNet:面向野外复杂场景文本的精准检测 | 论文 | HyperAI超神经