4 个月前

TextSnake:一种灵活表示方法,用于检测任意形状的文本

TextSnake:一种灵活表示方法,用于检测任意形状的文本

摘要

在深度神经网络和大规模数据集的推动下,场景文本检测方法在过去几年中取得了显著进展,不断刷新各种标准基准上的性能记录。然而,由于采用的表示方法(轴对齐矩形、旋转矩形或四边形)的限制,现有方法在处理更为自由形式的文本实例时可能表现不佳,例如弯曲文本,这在实际场景中非常常见。为了解决这一问题,我们提出了一种更加灵活的场景文本表示方法,称为TextSnake,该方法能够有效表示水平、倾斜和弯曲形式的文本实例。在TextSnake中,一个文本实例被描述为一系列有序且重叠的圆盘,这些圆盘以对称轴为中心,并且每个圆盘都具有潜在可变的半径和方向。这些几何属性通过全卷积网络(FCN)模型进行估计。实验结果表明,基于TextSnake的文本检测器在Total-Text和SCUT-CTW1500这两个新发布的强调自然图像中弯曲文本的基准上达到了最先进的或相当的性能,并且在广泛使用的ICDAR 2015和MSRA-TD500数据集上也表现出色。具体而言,TextSnake在Total-Text上的F值比基线方法提高了超过40%。

代码仓库

speakstone/TextSnake
pytorch
GitHub 中提及
princewang1994/TextSnake.pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
curved-text-detection-on-scut-ctw1500TextSnake [[Long et al.(2018)Long, Ruan, Zhang, He, Wu, and Yao]]
F-Measure: 75.6%
scene-text-detection-on-icdar-2015PixelLink+VGG16 2s
F-Measure: 83.7
Precision: 85.5
Recall: 82
scene-text-detection-on-msra-td500TextSnake
F-Measure: 78.3
Precision: 83.2
Recall: 73.9
scene-text-detection-on-scut-ctw1500TextSnake
F-Measure: 75.6
Precision: 67.9
Recall: 85.3
scene-text-detection-on-total-textTextSnake
F-Measure: 78.4%
Precision: 82.7
Recall: 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TextSnake:一种灵活表示方法,用于检测任意形状的文本 | 论文 | HyperAI超神经