
摘要
先前的场景文本检测方法已在各类基准测试中取得了令人瞩目的性能表现。然而,即便采用深度神经网络模型,这些方法在处理复杂场景时仍往往表现不足,原因在于整体性能取决于流水线中多个阶段与组件之间的协同作用。本文提出了一种简单而强大的检测流水线,能够在自然场景中实现快速且准确的文本检测。该流水线通过单一神经网络直接预测图像中任意方向和四边形形状的单词或文本行,省去了不必要的中间步骤(如候选区域聚合与单词分割),显著提升了效率。由于流程的简洁性,研究重点可集中于损失函数设计与神经网络架构的优化。在ICDAR 2015、COCO-Text和MSRA-TD500等标准数据集上的实验表明,所提出的算法在准确率与效率方面均显著优于当前最先进的方法。在ICDAR 2015数据集上,该算法在720p分辨率下实现了13.2帧/秒(fps)的推理速度,F-score达到0.7820。
代码仓库
BruceChanJianLe/Image-Text-Recognition
GitHub 中提及
owseaman/Text-Detection-in-an-Image
GitHub 中提及
liushuchun/EAST.pytorch
pytorch
GitHub 中提及
ZXdatascience/TextDetectorAndroid
GitHub 中提及
alililia/ascend_advanced_east
mindspore
GitHub 中提及
dengdan/seglink
tf
GitHub 中提及
argman/EAST
tf
GitHub 中提及
yakhyo/east-pytorch
pytorch
GitHub 中提及
Antika-Roy/TextDetectionAndRecognition
GitHub 中提及
isaacaddis/Seung
GitHub 中提及
GokulKarthik/EAST.pytorch
pytorch
GitHub 中提及
swapnamoy17/EAST-DenseNet
tf
GitHub 中提及
zyasjtu/EAST
tf
GitHub 中提及
mindspore-lab/mindocr
mindspore
zxytim/EAST
tf
GitHub 中提及
CCLDArjun/Arjun-EAST
pytorch
GitHub 中提及
Kaushal28/FOTS-PyTorch
pytorch
GitHub 中提及
kurapan/EAST
tf
GitHub 中提及
PaddlePaddle/PaddleOCR
paddle
GitHub 中提及
Mind23-2/MindCode-5
mindspore
ingbeeedd/EAST-tf2keras
tf
GitHub 中提及
SakuraRiven/EAST
pytorch
solaris33/EAST-tf2
tf
GitHub 中提及
jnkl314/tin_dr
GitHub 中提及
Chris10M/RFB-Text-Detection
tf
GitHub 中提及
Mind23-2/MindCode-35
mindspore
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-text-detection-on-coco-text | EAST + VGG16 | F-Measure: 39.45 Precision: 50.39 Recall: 32.4 |
| scene-text-detection-on-icdar-2015 | PAN | F-Measure: 82.9 Precision: 84 Recall: 81.9 |
| scene-text-detection-on-icdar-2015 | EAST + PVANET2x RBOX (single-scale) | F-Measure: 78.2 Precision: 83.6 Recall: 73.5 |
| scene-text-detection-on-msra-td500 | EAST + PVANET2x | F-Measure: 76.08 Precision: 87.28 Recall: 67.43 |
| scene-text-detection-on-total-text | EAST | F-Measure: 42.0% Precision: 50.0 Recall: 36.2 |