3 个月前

文本检测变换器

文本检测变换器

摘要

本文提出了一种通用的端到端文本检测与识别框架——TExt Spotting TRansformers(TESTR),该框架基于Transformer架构,适用于自然场景中的文本检测与识别任务。TESTR采用单一编码器配合双解码器结构,联合实现文本框控制点回归与字符识别。与现有大多数方法不同,本方法无需依赖感兴趣区域(Region-of-Interest)操作,也无需依赖启发式规则驱动的后处理流程。在处理弯曲文本框时,TESTR尤其表现出色,因其能够有效应对传统边界框表示在复杂形状文本上的适应性局限。本文提出了适用于贝塞尔曲线与多边形标注的统一控制点表征方式,能够准确描述各类文本实例的几何形态。此外,我们设计了一种基于边界框引导的多边形检测机制(box-to-polygon),进一步提升检测精度。在弯曲文本及任意形状文本数据集上的实验结果表明,所提出的TESTR算法达到了当前最优的性能水平。

代码仓库

mlpc-ucsd/testr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-spotting-on-icdar-2015TESTR
F-measure (%) - Generic Lexicon: 73.6
F-measure (%) - Strong Lexicon: 85.2
F-measure (%) - Weak Lexicon: 79.4
text-spotting-on-inverse-textTESTR
F-measure (%) - Full Lexicon: 41.6
F-measure (%) - No Lexicon: 34.2
text-spotting-on-scut-ctw1500TESTR
F-Measure (%) - Full Lexicon: 81.5
F-measure (%) - No Lexicon: 56.0
text-spotting-on-total-textTESTR
F-measure (%) - Full Lexicon: 83.9
F-measure (%) - No Lexicon: 73.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
文本检测变换器 | 论文 | HyperAI超神经