HyperAIHyperAI

Command Palette

Search for a command to run...

MixNet:面向野外复杂场景文本的精准检测

Yu-Xiang Zeng Jun-Wei Hsieh Xin Li Ming-Ching Chang

摘要

在自然场景中检测小尺寸文本实例尤为具有挑战性,不规则排列位置与非理想光照条件常导致检测错误。本文提出MixNet,一种融合卷积神经网络(CNN)与Transformer优势的混合架构,能够准确检测复杂自然场景中的小尺寸文本,且不受文本方向、风格及光照条件的影响。MixNet包含两个核心模块:(1)作为主干网络的特征洗牌网络(Feature Shuffle Network, FSNet);(2)利用文本区域一维流形约束特性的中心Transformer模块(Central Transformer Block, CTBlock)。我们首次在FSNet中引入一种新颖的特征洗牌策略,促进多尺度特征间的高效交互,生成的高分辨率特征优于当前主流的ResNet与HRNet。基于FSNet的主干网络在多项现有文本检测方法(包括PAN、DB和FAST)上均取得了显著性能提升。随后,我们设计了互补的CTBlock,利用类似文本区域中轴线(medial axis)的中心线特征,在小尺寸文本密集排列的复杂场景下,表现出优于传统轮廓特征方法的检测能力。大量实验结果表明,将FSNet与CTBlock相结合的MixNet,在多个主流场景文本检测数据集上均达到了当前最优(state-of-the-art)的检测性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供