7 个月前

卷积神经网络

计算机视觉

Wenhai Wang extsuperscript1,4* Enze Xie extsuperscript2,5* Xiang Li extsuperscript3,4*† Wenbo Hou extsuperscript1 Tong Lu extsuperscript1‡ Gang Yu extsuperscript5 Shuai Shao extsuperscript5

摘要

场景文字检测近年来取得了快速进展，尤其是在卷积神经网络的发展推动下。然而，仍有两个挑战阻碍了算法在工业应用中的推广。一方面，大多数最先进的算法需要使用四边形边界框来定位任意形状的文字，这种方法不够精确。另一方面，当两个文本实例距离较近时，可能会导致错误检测，将这两个实例合并在一起。传统上，基于分割的方法可以缓解第一个问题，但在解决第二个挑战方面通常表现不佳。为了解决这两个挑战，本文提出了一种新颖的渐进尺度扩展网络（Progressive Scale Expansion Network, PSENet），该网络能够精确检测任意形状的文本实例。具体而言，PSENet为每个文本实例生成不同尺度的内核，并逐步将最小尺度的内核扩展到具有完整形状的文本实例。由于最小尺度内核之间存在较大的几何间隔，我们的方法能够有效地分离靠近的文本实例，从而使得基于分割的方法更容易用于检测任意形状的文本实例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT数据集上的大量实验验证了PSENet的有效性。特别值得注意的是，在包含大量长曲线文字的CTW1500数据集中，PSENet实现了74.3%的F值（每秒27帧），而我们最好的F值（82.2%）比现有最先进算法高出6.6%。未来我们将发布相关代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Wenhai Wang extsuperscript1,4* Enze Xie extsuperscript2,5* Xiang Li extsuperscript3,4*† Wenbo Hou extsuperscript1 Tong Lu extsuperscript1‡ Gang Yu extsuperscript5 Shuai Shao extsuperscript5

摘要

场景文字检测近年来取得了快速进展，尤其是在卷积神经网络的发展推动下。然而，仍有两个挑战阻碍了算法在工业应用中的推广。一方面，大多数最先进的算法需要使用四边形边界框来定位任意形状的文字，这种方法不够精确。另一方面，当两个文本实例距离较近时，可能会导致错误检测，将这两个实例合并在一起。传统上，基于分割的方法可以缓解第一个问题，但在解决第二个挑战方面通常表现不佳。为了解决这两个挑战，本文提出了一种新颖的渐进尺度扩展网络（Progressive Scale Expansion Network, PSENet），该网络能够精确检测任意形状的文本实例。具体而言，PSENet为每个文本实例生成不同尺度的内核，并逐步将最小尺度的内核扩展到具有完整形状的文本实例。由于最小尺度内核之间存在较大的几何间隔，我们的方法能够有效地分离靠近的文本实例，从而使得基于分割的方法更容易用于检测任意形状的文本实例。在CTW1500、Total-Text、ICDAR 2015和ICDAR 2017 MLT数据集上的大量实验验证了PSENet的有效性。特别值得注意的是，在包含大量长曲线文字的CTW1500数据集中，PSENet实现了74.3%的F值（每秒27帧），而我们最好的F值（82.2%）比现有最先进算法高出6.6%。未来我们将发布相关代码。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供