3 个月前

基于二维自注意力机制识别任意形状文本

基于二维自注意力机制识别任意形状文本

摘要

场景文本识别(Scene Text Recognition, STR)是指在自然场景图像中识别字符序列的任务。尽管近年来STR方法取得了显著进展,但现有方法在识别任意形状文本方面仍存在局限,例如高度弯曲或旋转的文本,而这类文本在日常生活中极为常见(如餐馆招牌、产品标签、公司标识等)。本文提出一种新型网络架构——自注意力场景文本识别网络(Self-Attention Text Recognition Network, SATRN),该模型受Transformer架构启发,利用自注意力机制建模场景图像中字符之间的二维(2D)空间依赖关系。通过充分发挥自注意力机制的全局信息传播能力,SATRN能够有效识别具有任意排列方式及大字符间距的文本。实验结果表明,SATRN在“不规则文本”基准测试上平均性能超越现有STR模型达5.7个百分点(pp)。本文还提供了详尽的实证分析,揭示了模型内部工作机制及其适用范围(如旋转文本、多行文本等)。相关代码将开源发布。

代码仓库

Media-Smart/vedastr
pytorch
GitHub 中提及

基准测试

基准方法指标
scene-text-recognition-on-icdar-2003SATRN
Accuracy: 96.7
scene-text-recognition-on-icdar2013SATRN
Accuracy: 94.1
scene-text-recognition-on-icdar2015SATRN
Accuracy: 79.0
scene-text-recognition-on-svtSATRN
Accuracy: 91.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于二维自注意力机制识别任意形状文本 | 论文 | HyperAI超神经