3 个月前

GLASS:面向场景文本定位的全局到局部注意力机制

GLASS:面向场景文本定位的全局到局部注意力机制

摘要

近年来,文本检测与识别的主流范式是将两项任务整合为一个端到端框架。在此范式下,文本检测与识别均基于从输入图像中提取的共享全局特征图完成。然而,端到端方法面临的主要挑战之一是在处理尺度变化(文本过小或过大)以及任意旋转角度的文字时,识别性能显著下降。为此,本文提出一种新颖的全局到局部注意力机制——GLASS(Global-to-Local Attention for Text Spotting),用于融合全局与局部特征,以应对上述挑战。其中,全局特征由共享主干网络提取,保留整幅图像的上下文信息;而局部特征则在经过缩放、高分辨率且旋转对齐的单词区域上独立计算。局部区域提取的信息有效缓解了尺度变化和文字旋转带来的固有难题。我们通过在不同尺度与角度下的性能分析,验证了该方法在极端尺度与极端旋转角度下的显著提升。此外,本文引入一种面向方向感知的损失函数,用于监督检测任务,实验证明该损失项在所有角度下均能有效提升检测与识别的整体性能。最后,我们展示了GLASS的通用性:将其集成至多个领先的文本检测与识别架构中,均能进一步提升其文本定位与识别性能。实验结果表明,本方法在多个基准数据集上取得了当前最优(SOTA)的性能,包括新发布的TextOCR数据集。

代码仓库

amazon-science/glass-text-spotting
pytorch
GitHub 中提及
amazon-research/glass-text-spotting
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-spotting-on-icdar-2015GLASS
F-measure (%) - Generic Lexicon: 76.3
F-measure (%) - Strong Lexicon: 84.7
F-measure (%) - Weak Lexicon: 80.1
text-spotting-on-total-textGLASS
F-measure (%) - Full Lexicon: 83.0
F-measure (%) - No Lexicon: 76.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供