3 个月前

DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位

DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位

摘要

端到端文本定位旨在将场景文本检测与识别整合到统一框架中。在设计高效文本定位器(spotter)时,如何处理这两个子任务之间的关系至关重要。尽管基于Transformer的方法消除了依赖启发式后处理的步骤,但仍面临子任务间协同不足以及训练效率低下的问题。此外,现有方法往往忽视了多语言文本定位的研究,而后者通常需要额外的文本书写系统识别任务。本文提出DeepSolo++,一种结构简洁的DETR类基线模型,其通过单一解码器,利用显式点(explicit points)实现文本检测、识别与书写系统识别的联合建模。技术上,针对每个文本实例,我们将字符序列表示为有序点,并通过可学习的显式点查询进行建模。经过单一解码器处理后,这些点查询已编码了必要的文本语义与空间位置信息,进而可通过并行的简单预测头,直接解码出文本的中心线、边界框、书写系统类型及置信度。此外,我们展示了该方法在字符类别、语言类型和任务扩展性方面具有出色的可拓展性。一方面,该方法不仅在英文场景中表现优异,还能有效处理具有复杂字体结构和上千级字符类别的文本,例如中文;另一方面,相较于先前方法,DeepSolo++在引入的书写系统识别任务上取得了更优性能,且训练流程更为简洁。同时,我们的模型还兼容行级标注(line annotations),相较于多边形标注,显著降低了标注成本。相关代码已开源,地址为:\url{https://github.com/ViTAE-Transformer/DeepSolo}。

代码仓库

vitae-transformer/deepsolo
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-spotting-on-inverse-textDeepSolo (ResNet-50)
F-measure (%) - Full Lexicon: 53.9
F-measure (%) - No Lexicon: 48.5
text-spotting-on-inverse-textDeepSolo (ResNet-50, TextOCR)
F-measure (%) - Full Lexicon: 71.2
F-measure (%) - No Lexicon: 64.6
text-spotting-on-inverse-textDeepSolo (ViTAEv2-S, TextOCR)
F-measure (%) - Full Lexicon: 75.8
F-measure (%) - No Lexicon: 68.8
text-spotting-on-scut-ctw1500DeepSolo (ResNet-50)
F-Measure (%) - Full Lexicon: 81.4
F-measure (%) - No Lexicon: 64.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DeepSolo++:让带有显式点的Transformer解码器独立完成多语言文本定位 | 论文 | HyperAI超神经