4 个月前

卷积神经网络

计算机视觉

Lyu Pengyuan Yao Cong Wu Wenhao Yan Shuicheng Bai Xiang

摘要

基于深度学习的当前最优场景文本检测方法大致可分为两类。第一类将场景文本视为一类通用目标，沿用通用目标检测范式，通过回归文本框位置来定位文本，但难以应对场景文本任意方向性及大宽高比的问题。第二类方法直接对文本区域进行分割，但通常需要复杂的后处理步骤。本文提出一种融合两类方法思想的新方法，同时规避了它们各自的缺点。我们提出通过定位文本边界框的角点并以相对位置进行文本区域分割的方式来检测场景文本。在推理阶段，候选文本框通过采样和分组角点生成，并由分割图进行打分，再经非极大值抑制（NMS）进行抑制。与以往方法相比，该方法能自然处理长条形方向文本，且无需复杂的后处理。在ICDAR2013、ICDAR2015、MSRA-TD500、MLT以及COCO-Text数据集上的实验表明，所提算法在准确率和效率方面均取得了更优或相当的结果。基于VGG16网络结构，在ICDAR2015上达到84.3%的F-measure，在MSRA-TD500上达到81.5%的F-measure。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

卷积神经网络

计算机视觉

Lyu Pengyuan Yao Cong Wu Wenhao Yan Shuicheng Bai Xiang

摘要

基于深度学习的当前最优场景文本检测方法大致可分为两类。第一类将场景文本视为一类通用目标，沿用通用目标检测范式，通过回归文本框位置来定位文本，但难以应对场景文本任意方向性及大宽高比的问题。第二类方法直接对文本区域进行分割，但通常需要复杂的后处理步骤。本文提出一种融合两类方法思想的新方法，同时规避了它们各自的缺点。我们提出通过定位文本边界框的角点并以相对位置进行文本区域分割的方式来检测场景文本。在推理阶段，候选文本框通过采样和分组角点生成，并由分割图进行打分，再经非极大值抑制（NMS）进行抑制。与以往方法相比，该方法能自然处理长条形方向文本，且无需复杂的后处理。在ICDAR2013、ICDAR2015、MSRA-TD500、MLT以及COCO-Text数据集上的实验表明，所提算法在准确率和效率方面均取得了更优或相当的结果。基于VGG16网络结构，在ICDAR2015上达到84.3%的F-measure，在MSRA-TD500上达到81.5%的F-measure。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供