4 个月前

Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络

Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络

摘要

近年来,基于深度神经网络的模型在场景文本检测和识别领域占据了主导地位。本文研究了场景文本定位问题,旨在同时在自然图像中实现文本检测和识别。提出了一种端到端可训练的神经网络模型用于场景文本定位。该模型命名为Mask TextSpotter,其灵感来源于最近发布的Mask R-CNN工作。与之前通过端到端可训练的深度神经网络实现文本定位的方法不同,Mask TextSpotter利用了一个简单且平滑的端到端学习过程,在此过程中,通过语义分割获得精确的文本检测和识别。此外,该模型在处理不规则形状的文本实例(例如弯曲文本)方面优于先前的方法。在ICDAR2013、ICDAR2015和Total-Text数据集上的实验表明,所提出的方法在这两个任务——场景文本检测和端到端文本识别中均达到了最先进的结果。

代码仓库

lvpengyuan/masktextspotter.caffe2
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2013Mask TextSpotter
F-Measure: 91.7%
Precision: 95
Recall: 88.6
scene-text-detection-on-icdar-2015Mask TextSpotter
F-Measure: 86
Precision: 91.6
Recall: 81
scene-text-detection-on-total-textMask TextSpotter
F-Measure: 61.3%
Precision: 69
Recall: 55
text-spotting-on-inverse-textMaskTextSpotter v2
F-measure (%) - Full Lexicon: 43.5
F-measure (%) - No Lexicon: 39.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Mask TextSpotter:一种用于识别任意形状文本的端到端可训练神经网络 | 论文 | HyperAI超神经