7 个月前

卷积神经网络

计算机视觉

Pan He Weilin Huang Tong He Qile Zhu Yu Qiao Xiaolin Li

摘要

我们提出了一种新颖的单次文本检测器，该检测器能够直接输出自然图像中的单词级边界框。我们引入了一种注意力机制，通过自动学习的注意力图粗略地识别文本区域。这显著抑制了卷积特征中的背景干扰，对于生成准确的单词推理尤为重要，尤其是在极小尺寸的情况下。因此，该模型本质上以一种从粗到精的方式工作。它不同于近期基于全卷积网络（FCN）的文本检测器，后者通过级联多个FCN模型来实现精确预测。此外，我们开发了一个层次化的Inception模块，能够高效地聚合多尺度Inception特征。这不仅增强了局部细节，还编码了强大的上下文信息，使得检测器在处理单尺度图像中的多尺度和多方向文本时能够可靠运行。我们的文本检测器在ICDAR 2015基准测试中达到了77%的F值，超越了现有文献[18, 28]中的最新结果。演示地址为：http://sstd.whuang.org/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Pan He Weilin Huang Tong He Qile Zhu Yu Qiao Xiaolin Li

摘要

我们提出了一种新颖的单次文本检测器，该检测器能够直接输出自然图像中的单词级边界框。我们引入了一种注意力机制，通过自动学习的注意力图粗略地识别文本区域。这显著抑制了卷积特征中的背景干扰，对于生成准确的单词推理尤为重要，尤其是在极小尺寸的情况下。因此，该模型本质上以一种从粗到精的方式工作。它不同于近期基于全卷积网络（FCN）的文本检测器，后者通过级联多个FCN模型来实现精确预测。此外，我们开发了一个层次化的Inception模块，能够高效地聚合多尺度Inception特征。这不仅增强了局部细节，还编码了强大的上下文信息，使得检测器在处理单尺度图像中的多尺度和多方向文本时能够可靠运行。我们的文本检测器在ICDAR 2015基准测试中达到了77%的F值，超越了现有文献[18, 28]中的最新结果。演示地址为：http://sstd.whuang.org/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供