8 个月前

卷积神经网络

计算机视觉

Xiang Li Wenhai Wang* Wenbo Hou Ruo-Ze Liu Tong Lu Jian Yang

摘要

形状鲁棒文本检测面临的挑战主要体现在两个方面：1）现有的基于四边形边界框的检测器难以准确定位任意形状的文本，这些文本很难被完美地包含在一个矩形内；2）大多数基于像素级分割的检测器可能无法分离彼此非常接近的文本实例。为了解决这些问题，我们提出了一种新颖的渐进尺度扩展网络（Progressive Scale Expansion Network, PSENet），该网络设计为一种基于分割的检测器，对每个文本实例进行多次预测。这些预测对应于通过将原始文本实例缩小到不同尺度而生成的各种“核”（kernels）。因此，最终的检测可以通过我们的渐进尺度扩展算法来实现，该算法逐步将最小尺度的核扩展到具有最大且完整形状的文本实例。由于这些最小核之间存在较大的几何裕度，我们的方法能够有效地区分相邻的文本实例，并且对任意形状具有鲁棒性。在ICDAR 2015和ICDAR 2017 MLT基准测试中的最新结果进一步证实了PSENet的有效性。特别是在曲线文本数据集SCUT-CTW1500上，PSENet的表现绝对优于之前的最佳记录6.37%。代码将在https://github.com/whai362/PSENet提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Xiang Li Wenhai Wang* Wenbo Hou Ruo-Ze Liu Tong Lu Jian Yang

摘要

形状鲁棒文本检测面临的挑战主要体现在两个方面：1）现有的基于四边形边界框的检测器难以准确定位任意形状的文本，这些文本很难被完美地包含在一个矩形内；2）大多数基于像素级分割的检测器可能无法分离彼此非常接近的文本实例。为了解决这些问题，我们提出了一种新颖的渐进尺度扩展网络（Progressive Scale Expansion Network, PSENet），该网络设计为一种基于分割的检测器，对每个文本实例进行多次预测。这些预测对应于通过将原始文本实例缩小到不同尺度而生成的各种“核”（kernels）。因此，最终的检测可以通过我们的渐进尺度扩展算法来实现，该算法逐步将最小尺度的核扩展到具有最大且完整形状的文本实例。由于这些最小核之间存在较大的几何裕度，我们的方法能够有效地区分相邻的文本实例，并且对任意形状具有鲁棒性。在ICDAR 2015和ICDAR 2017 MLT基准测试中的最新结果进一步证实了PSENet的有效性。特别是在曲线文本数据集SCUT-CTW1500上，PSENet的表现绝对优于之前的最佳记录6.37%。代码将在https://github.com/whai362/PSENet提供。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供