4 个月前

卷积神经网络

计算机视觉

Zhou Xinyu Yao Cong Wen He Wang Yuzhi Zhou Shuchang

摘要

先前的场景文本检测方法已在各类基准测试中取得了令人瞩目的性能表现。然而，即便采用深度神经网络模型，这些方法在处理复杂场景时仍往往表现不足，原因在于整体性能取决于流水线中多个阶段与组件之间的协同作用。本文提出了一种简单而强大的检测流水线，能够在自然场景中实现快速且准确的文本检测。该流水线通过单一神经网络直接预测图像中任意方向和四边形形状的单词或文本行，省去了不必要的中间步骤（如候选区域聚合与单词分割），显著提升了效率。由于流程的简洁性，研究重点可集中于损失函数设计与神经网络架构的优化。在ICDAR 2015、COCO-Text和MSRA-TD500等标准数据集上的实验表明，所提出的算法在准确率与效率方面均显著优于当前最先进的方法。在ICDAR 2015数据集上，该算法在720p分辨率下实现了13.2帧/秒（fps）的推理速度，F-score达到0.7820。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

卷积神经网络

计算机视觉

Zhou Xinyu Yao Cong Wen He Wang Yuzhi Zhou Shuchang

摘要

先前的场景文本检测方法已在各类基准测试中取得了令人瞩目的性能表现。然而，即便采用深度神经网络模型，这些方法在处理复杂场景时仍往往表现不足，原因在于整体性能取决于流水线中多个阶段与组件之间的协同作用。本文提出了一种简单而强大的检测流水线，能够在自然场景中实现快速且准确的文本检测。该流水线通过单一神经网络直接预测图像中任意方向和四边形形状的单词或文本行，省去了不必要的中间步骤（如候选区域聚合与单词分割），显著提升了效率。由于流程的简洁性，研究重点可集中于损失函数设计与神经网络架构的优化。在ICDAR 2015、COCO-Text和MSRA-TD500等标准数据集上的实验表明，所提出的算法在准确率与效率方面均显著优于当前最先进的方法。在ICDAR 2015数据集上，该算法在720p分辨率下实现了13.2帧/秒（fps）的推理速度，F-score达到0.7820。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供