4 个月前

基于上下文注意力多任务学习的单次任意形状文本检测器

基于上下文注意力多任务学习的单次任意形状文本检测器

摘要

近年来,检测任意形状的场景文本一直是一项具有挑战性的任务。本文提出了一种基于分割的新型文本检测器,即SAST(Scene Arbitrary Shape Text Detector),该检测器采用基于全卷积网络(Fully Convolutional Network, FCN)的上下文注意力多任务学习框架,以学习各种几何属性,从而重建文本区域的多边形表示。考虑到文本的顺序特性,引入了上下文注意力模块(Context Attention Block),用于捕捉像素信息的长距离依赖关系,以获得更可靠的分割结果。在后处理阶段,提出了一种点到四边形分配方法(Point-to-Quad assignment method),通过一次性整合高层次的对象知识和低层次的像素信息,将像素聚类为文本实例。此外,利用所提出的几何属性可以更有效地提取任意形状文本的多边形表示。在包括ICDAR2015、ICDAR2017-MLT、SCUT-CTW1500和Total-Text在内的多个基准数据集上的实验表明,SAST在精度方面达到了更好的或相当的性能。此外,所提出的算法在单个NVIDIA Titan Xp显卡上运行时,在SCUT-CTW1500数据集上可达到每秒27.63帧(FPS),H均值为81.0%,超过了大多数现有的基于分割的方法。

代码仓库

PaddlePaddle/PaddleOCR
paddle
GitHub 中提及

基准测试

基准方法指标
scene-text-detection-on-icdar-2015SAST
F-Measure: 86.91
Precision: 86.72
Recall: 87.09

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供