4 个月前

基于像素聚合网络的高效准确任意形状文本检测

基于像素聚合网络的高效准确任意形状文本检测

摘要

场景文字检测是场景文字识别系统中的一个重要步骤,近年来随着卷积神经网络的发展取得了快速进步。然而,仍存在两个主要挑战阻碍其在实际应用中的部署。第一个问题是速度与精度之间的权衡。第二个问题是建模任意形状的文字实例。最近,一些方法被提出以解决任意形状文字检测的问题,但这些方法很少考虑整个流程的速度,在实际应用中可能会有所不足。本文提出了一种高效且准确的任意形状文字检测器,称为像素聚合网络(Pixel Aggregation Network, PAN),该网络配备了一个低计算成本的分割头和一个可学习的后处理模块。具体而言,分割头由特征金字塔增强模块(Feature Pyramid Enhancement Module, FPEM)和特征融合模块(Feature Fusion Module, FFM)组成。FPEM是一个可级联的U形模块,可以引入多层级信息以指导更好的分割。FFM则可以将不同深度的FPEM提供的特征汇聚成最终用于分割的特征。可学习的后处理通过像素聚合(Pixel Aggregation, PA)实现,可以通过预测的相似度向量精确地聚合文字像素。在多个标准基准上的实验验证了所提出的PAN的优势。值得注意的是,我们的方法在CTW1500数据集上可以达到每秒84.2帧(FPS)的情况下获得79.9%的竞争性F值。

代码仓库

liuch37/pan-tensorflow
tf
GitHub 中提及
liuch37/pan-pytorch
pytorch
GitHub 中提及
WenmuZhou/PAN.pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2015TextSnake
F-Measure: 82.6
Precision: 84.9
Recall: 80.4
scene-text-detection-on-msra-td500PAN
F-Measure: 84.1
Recall: 83.8
scene-text-detection-on-scut-ctw1500PAN-640
F-Measure: 83.7
Precision: 86.4
Recall: 81.2
scene-text-detection-on-total-textPAN-640
F-Measure: 85%
Precision: 89.3
Recall: 81

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于像素聚合网络的高效准确任意形状文本检测 | 论文 | HyperAI超神经