18 天前

野外曲线文本检测:新数据集与新解决方案

野外曲线文本检测:新数据集与新解决方案

摘要

近年来,场景文本检测取得了显著进展。检测方式正从轴对齐矩形逐步演进为旋转矩形,进一步发展到四边形。然而,当前主流数据集中的曲线文本样本极为稀少,而曲线文本在真实场景图像中广泛存在,例如招牌、产品名称等。为引起学术界对野外曲线文本检测问题的重视,本文构建了一个名为CTW1500的曲线文本数据集,包含1500张图像中的超过10,000个文本标注(其中1000张用于训练,500张用于测试)。基于该数据集,我们首次提出一种基于多边形的曲线文本检测器(Curve Text Detector, CTD),能够直接检测曲线文本,无需依赖经验性的后处理组合。此外,通过无缝融合循环横向与纵向偏移连接结构(Recurrent Transverse and Longitudinal Offset Connection, TLOC),所提出的方法实现了端到端可训练性,能够自动学习位置偏移之间的内在关联。这使得CTD能够充分挖掘上下文信息,而非独立预测各个点,从而实现更平滑、更精确的检测效果。我们还提出了两种简单但高效的后处理方法:非多边形抑制(Non-Polygon Suppression, NPS)和多边形非极大值抑制(Polygonal Non-Maximum Suppression, PNMS),进一步提升检测精度。此外,本文所提出的方法具有通用性设计,无需额外调整即可在矩形或四边形边界框上进行训练。在CTW1500数据集上的实验结果表明,仅使用轻量级主干网络,我们的方法在性能上显著超越现有最先进方法。即使仅在曲线文本或非曲线文本子集上进行评估,CTD + TLOC仍能取得最佳表现。代码已开源,地址为:https://github.com/Yuliang-Liu/Curve-Text-Detector。

代码仓库

Yuliang-Liu/Curve-Text-Detector
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
curved-text-detection-on-scut-ctw1500CTD+TLOC
F-Measure: 73.4%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
野外曲线文本检测:新数据集与新解决方案 | 论文 | HyperAI超神经