8 个月前

卷积神经网络

计算机视觉

Shangbang Long Jiaqiang Ruan Wenjie Zhang Xin He Wenhao Wu Cong Yao

摘要

在深度神经网络和大规模数据集的推动下，场景文本检测方法在过去几年中取得了显著进展，不断刷新各种标准基准上的性能记录。然而，由于采用的表示方法（轴对齐矩形、旋转矩形或四边形）的限制，现有方法在处理更为自由形式的文本实例时可能表现不佳，例如弯曲文本，这在实际场景中非常常见。为了解决这一问题，我们提出了一种更加灵活的场景文本表示方法，称为TextSnake，该方法能够有效表示水平、倾斜和弯曲形式的文本实例。在TextSnake中，一个文本实例被描述为一系列有序且重叠的圆盘，这些圆盘以对称轴为中心，并且每个圆盘都具有潜在可变的半径和方向。这些几何属性通过全卷积网络（FCN）模型进行估计。实验结果表明，基于TextSnake的文本检测器在Total-Text和SCUT-CTW1500这两个新发布的强调自然图像中弯曲文本的基准上达到了最先进的或相当的性能，并且在广泛使用的ICDAR 2015和MSRA-TD500数据集上也表现出色。具体而言，TextSnake在Total-Text上的F值比基线方法提高了超过40%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Shangbang Long Jiaqiang Ruan Wenjie Zhang Xin He Wenhao Wu Cong Yao

摘要

在深度神经网络和大规模数据集的推动下，场景文本检测方法在过去几年中取得了显著进展，不断刷新各种标准基准上的性能记录。然而，由于采用的表示方法（轴对齐矩形、旋转矩形或四边形）的限制，现有方法在处理更为自由形式的文本实例时可能表现不佳，例如弯曲文本，这在实际场景中非常常见。为了解决这一问题，我们提出了一种更加灵活的场景文本表示方法，称为TextSnake，该方法能够有效表示水平、倾斜和弯曲形式的文本实例。在TextSnake中，一个文本实例被描述为一系列有序且重叠的圆盘，这些圆盘以对称轴为中心，并且每个圆盘都具有潜在可变的半径和方向。这些几何属性通过全卷积网络（FCN）模型进行估计。实验结果表明，基于TextSnake的文本检测器在Total-Text和SCUT-CTW1500这两个新发布的强调自然图像中弯曲文本的基准上达到了最先进的或相当的性能，并且在广泛使用的ICDAR 2015和MSRA-TD500数据集上也表现出色。具体而言，TextSnake在Total-Text上的F值比基线方法提高了超过40%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供