4 个月前

基于金字塔注意力网络的 Mask R-CNN 用于场景文本检测

基于金字塔注意力网络的 Mask R-CNN 用于场景文本检测

摘要

在本文中,我们提出了一种基于Mask R-CNN的新文本检测方法,该方法能够以统一的方式稳健地从自然场景图像中检测多方向和弯曲的文本。为了增强Mask R-CNN在文本检测任务中的特征表示能力,我们建议使用金字塔注意力网络(Pyramid Attention Network, PAN)作为Mask R-CNN的新骨干网络。实验结果表明,PAN可以更有效地抑制由类似文本背景引起的误报。我们的方法仅通过单尺度和单模型测试,在多方向(ICDAR-2015、ICDAR-2017 MLT)和弯曲(SCUT-CTW1500)文本检测基准任务上均取得了优异的性能。

基准测试

基准方法指标
scene-text-detection-on-icdar-2015PAN
F-Measure: 85.9
Precision: 90.8
Recall: 81.5
scene-text-detection-on-icdar-2017-mlt-1PAN
F-Measure: 74.3%
Precision: 80
Recall: 69.8
scene-text-detection-on-scut-ctw1500PAN
F-Measure: 85
FPS: 65.2
Precision: 86.8
Recall: 83.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于金字塔注意力网络的 Mask R-CNN 用于场景文本检测 | 论文 | HyperAI超神经