3 个月前

基于可微二值化的实时场景文本检测

基于可微二值化的实时场景文本检测

摘要

近年来,基于分割的文本检测方法在场景文本检测领域受到广泛关注,因为分割结果能够更准确地描述各种形状的文本,例如弯曲文本。然而,基于分割的检测方法通常依赖于二值化后处理步骤,该步骤将分割网络生成的概率图转换为文本的边界框或区域。本文提出一种名为可微分二值化(Differentiable Binarization, DB)的模块,可将二值化过程直接嵌入到分割网络中。通过与DB模块联合优化,分割网络能够自适应地设定二值化阈值,不仅简化了后处理流程,还显著提升了文本检测的性能。基于一个简单的分割网络架构,我们在五个基准数据集上验证了DB模块的有效性,结果表明其在检测精度与速度方面均持续达到当前最优水平。尤其值得注意的是,在采用轻量级主干网络的情况下,DB带来的性能提升尤为显著,从而有助于在检测精度与计算效率之间实现理想的权衡。具体而言,在MSRA-TD500数据集上,使用ResNet-18作为主干网络的检测器取得了82.8的F-measure,推理速度达到62 FPS。代码已开源,地址为:https://github.com/MhLiao/DB

代码仓库

jakeywu/ocr_torch
pytorch
GitHub 中提及
2023-MindSpore-1/ms-code-43
mindspore
GitHub 中提及
SURFZJY/Real-time-Text-Detection
pytorch
GitHub 中提及
huyhoang17/DB_text_minimal
pytorch
GitHub 中提及
Mushroomcat9998/DBNet
pytorch
GitHub 中提及
mindee/doctr
pytorch
GitHub 中提及
WenmuZhou/DBNet.pytorch
pytorch
GitHub 中提及
WenmuZhou/PytorchOCR
pytorch
GitHub 中提及
MhLiao/DB
官方
pytorch
GitHub 中提及
PaddlePaddle/PaddleOCR
paddle
GitHub 中提及
18520339/dbnet-tf2
tf
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2015DB-ResNet-50 (1152)
F-Measure: 87.3
Precision: 91.8
Recall: 83.2
scene-text-detection-on-msra-td500DB-ResNet-50 (736)
F-Measure: 84.9
Precision: 91.5
Recall: 79.2
scene-text-detection-on-scut-ctw1500DB-ResNet50 (1024)
F-Measure: 83.4
scene-text-detection-on-total-textDB-ResNet-50 (800)
F-Measure: 84.7%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于可微二值化的实时场景文本检测 | 论文 | HyperAI超神经