4 个月前

基于整体多通道预测的场景文本检测

基于整体多通道预测的场景文本检测

摘要

近年来,场景文本检测已成为计算机视觉和文档分析领域的一个活跃研究课题,因其重要性和显著挑战而备受关注。然而,现有的大多数方法都是在局部区域内检测文本,通常通过提取字符、单词或行级别的候选区域,随后进行候选区域聚合和假阳性消除,这可能会排除场景中广泛范围和长距离上下文线索的影响。为了充分利用整幅自然图像中的丰富信息,我们提出了一种整体化的文本定位方法,即将场景文本检测视为一个语义分割问题。所提出的算法直接对全图进行处理,并生成全局像素级预测图,在这些预测图中形成检测结果。为了更好地利用文本的特性,该算法估计了关于文本区域、单个字符及其关系的三种类型的信息,使用单一的全卷积网络(Fully Convolutional Network, FCN)模型实现。通过这种对文本特性的预测,所提出的算法能够同时处理现实世界自然图像中的水平、多方向和弯曲文本。在包括ICDAR 2013、ICDAR 2015和MSRA-TD500在内的标准基准上的实验表明,该算法显著优于先前的最先进方法。此外,我们在最近发布的大型数据集COCO-Text上报告了首个基线结果。

基准测试

基准方法指标
scene-text-detection-on-coco-textYao et al.
F-Measure: 33.31
Precision: 43.23
Recall: 27.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于整体多通道预测的场景文本检测 | 论文 | HyperAI超神经