3 个月前

DeepSolo:让带有显式点的Transformer解码器独立完成文本定位任务

DeepSolo:让带有显式点的Transformer解码器独立完成文本定位任务

摘要

端到端文本检测与识别旨在将场景文本检测与识别两个子任务整合到统一的框架中。在设计高效文本定位器(spotter)的过程中,如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了对启发式后处理的依赖,但仍面临子任务间协同不足以及训练效率低下的问题。本文提出DeepSolo,一种结构简洁的DETR类基线模型,其通过单一解码器结合显式点(explicit points)实现文本检测与识别的联合建模。技术上,针对每个文本实例,我们将字符序列表示为有序点,并采用可学习的显式点查询进行建模。经过单一解码器的处理后,这些点查询已编码了必要的文本语义与空间位置信息,随后可通过并行设计的简单预测头,直接解码出文本的中心线、边界、书写类型及置信度。此外,我们还引入了一种文本匹配准则,以提供更精确的监督信号,从而显著提升训练效率。在多个公开基准上的定量实验表明,DeepSolo不仅超越了现有最先进方法,且在训练效率方面表现更优。同时,DeepSolo还兼容行级标注(line annotations),其标注成本远低于多边形标注。代码已开源,地址为:https://github.com/ViTAE-Transformer/DeepSolo。

代码仓库

vitae-transformer/deepsolo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-spotting-on-icdar-2015DeepSolo(ResNet-50)
F-measure (%) - Generic Lexicon: 76.9
F-measure (%) - Strong Lexicon: 86.8
F-measure (%) - Weak Lexicon: 81.9
text-spotting-on-icdar-2015DeepSolo(ResNet-50, TextOCR)
F-measure (%) - Generic Lexicon: 79.1
F-measure (%) - Strong Lexicon: 88.0
F-measure (%) - Weak Lexicon: 83.5
text-spotting-on-icdar-2015DeepSolo (ViTAEv2-S, TextOCR)
F-measure (%) - Generic Lexicon: 79.5
F-measure (%) - Strong Lexicon: 88.1
F-measure (%) - Weak Lexicon: 83.9
text-spotting-on-total-textDeepSolo (ViTAEv2-S, TextOCR)
F-measure (%) - Full Lexicon: 89.6
F-measure (%) - No Lexicon: 83.6
text-spotting-on-total-textDeepSolo (ResNet-50)
F-measure (%) - Full Lexicon: 87.0
F-measure (%) - No Lexicon: 79.7
text-spotting-on-total-textDeepSolo (ResNet-50, TextOCR)
F-measure (%) - Full Lexicon: 88.7
F-measure (%) - No Lexicon: 82.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepSolo:让带有显式点的Transformer解码器独立完成文本定位任务 | 论文 | HyperAI超神经